AlphaStarの論文を読むその９（マルチエージェント学習）

AlphaStar 強化学習

マルチエージェント学習リーグトレーニングはマルチエージェント強化学習アルゴリズムであり、セルフプレイトレーニング中によく発生するサイクルに対処し、多様な戦略を統合するために設計されている。訓練中に、エージェント（RLアルゴリズムによって訓…

2019-11-24

MuZeroの論文を読むその２（MuZeroアルゴリズム）

MuZero 強化学習

続きです。 MuZeroアルゴリズム MuZeroアルゴリズムについて詳しく説明する。予測は、各タイムステップtで、ステップのそれぞれについて、過去の観測および将来の行動を条件とするパラメーターを使用したモデルによって行われる。モデルは、3つの将来の量…

2019-11-23

AlphaStarの論文を読むその８（教師あり学習、強化学習）

AlphaStar 強化学習

今回はMethodsの教師あり学習と強化学習についてです。教師あり学習各エージェントは、人間の行動を模倣するために、リプレイから教師付き学習を通じて最初に訓練される。教師あり学習は、エージェントの初期化と多様な探索の維持の両方に使用される。こ…

2019-11-21

MuZeroの論文を読む（概要、導入、先行研究）

MuZero 強化学習

MuZeroの論文を読んでいきます。基本的にだらだら訳していくだけです。途中で感想を書いていきます。概要プランニング能力を備えたエージェントを構築することは、人工知能の追求における主な課題の1つである。ツリーベースのプランニング方法は、完全…

2019-08-18

Prioritized Experience Replayのsum-treeの実装

強化学習 Python

つくりながら学ぶ！深層強化学習のPrioritized Experience Replayの実装は、説明をシンプルにするためReplay Memoryを線形で探索する実装が紹介されていた。つまり、各transitionのTD誤差を優先度として、0からReplay Memoryの優先度の合計の間で、ランダム…

2019-08-15

Windows上でPyTorchを使って強化学習を試す

Windows 強化学習 PyTorch

以前はOpenAI GymはWindowsに対応してなかったが、以下のようにpipからインストールするだけで動くようになっている。 atariも問題なく動く。 pip install gym pip install gym[atari]ただし、env.render()で描画するとウィンドウの位置変更などができないと…

2019-08-13

迷路を方策勾配法で解く

強化学習

最近買った「つくりながら学ぶ！深層強化学習」という強化学習の本で、迷路を方策勾配法で解くという内容が記載されていたが、数式展開がなく自分で式を導出するのに苦労したのでメモを残しておく。この本の迷路の問題の内容は、Webにも掲載されている。第…

2019-02-04

将棋AIの進捗その26(自己対局による強化学習の経過2)

dlshogi 強化学習コンピュータ将棋

前回から時間が空いたが、自己対局による強化学習を続けている。10ブロック、192フィルタのモデルの自己対局による学習が、79サイクル※回したところで飽和気味になったため、10ブロックのモデルからパラメータを転移して15ブロックのモデルで強化学習を行う…

2018-06-17

将棋AIの進捗その24(自己対局による強化学習)

強化学習コンピュータ将棋 dlshogi

これまではAperyの初期局面集にfloodgateの棋譜を加えたものを初期局面集として自己対局を行っていたが、中終盤のバリエーションを増やすため、やねうら王教師局面からAperyの初期局面集を作成(評価値200以内局面を抽出) 初期局面集から詰みの局面を除くと…

2017-06-08

将棋でディープラーニングするその34(強化学習【成功】)

DeepLearning コンピュータ将棋強化学習

以前にRL policy networkをelmoの自己対戦でデータを使ってREINFORCE algorithmで学習させたが、うまく学習できなかった。昨日の日記でマルチタスク学習を実装したので、RL policy networkをバリューネットワークと同時に学習させることで、RL policy networ…