PythonでAlphaZero Shogiを実装するその2

AlphaGo Zero コンピュータ将棋

前回の日記の時点で、自己対局と学習を実装したが、学習したモデルを使って対局できるUSIエンジンを実装した。 dlshogi-zero/mcts_player.py at master · TadaoYamaoka/dlshogi-zero · GitHub 将棋ライブラリにcshogiを使用して、探索方法をdlshogiと同じ方…

2019-03-13

PythonでAlphaZero Shogiを実装する

AlphaGo Zero コンピュータ将棋

次の技術書典のネタとしてPythonでAlphaZero Shogiの完全コピーを実装しています。github.com自己対局と学習がようやく動くようになりました。入力特徴と出力ラベルと探索の仕様はAlphaZero Shogiと完全に一致させました。入力特徴先手の駒 14 後手の駒 14…

2017-12-09

ディリクレ分布の可視化

AlphaGo Zero AlphaZero

AlphaZeroのMCTSのルートノードではディリクレノイズを加えることで、全ての手をランダムで選ばれやすくしている。以前の記事で、2次元のディリクレ分布を可視化したが、3次元の場合の可視化ができないか調べていたら、以下のページを見つけたので試してみ…

2017-12-07

AlphaZero Chess/Shogiの論文を読むその2(AlphaGo Zeroとの差分)

DeepLearning AlphaGo Zero AlphaZero コンピュータ将棋

AlphaZero Chee/Shogiの論文についての続きです。今回はAlphaGo Zeroとの差分について書きます。AlphaGo Zeroの論文については、以前に書いた記事を参照ください。ネットワーク構成ニューラルネットワークの構成は、AlphaGo Zeroと同じ、PolicyとValueを…

2017-12-06

AlphaZero Chess/Shogiの論文を読む

AlphaGo Zero DeepLearning コンピュータ将棋 AlphaZero

DeepMindからAlphaGo Zeroと同じ方法で、チェスと将棋でトップレベルを上回ったという論文が発表されました。 [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithmドメイン知識を用いないスクラッチから…

2017-11-08

将棋でディープラーニングするその44(L2正則化)

AlphaGo Zero DeepLearning コンピュータ将棋

将棋AIのPolicy NetworkとValue Networkのマルチタスク学習でのL2正則化の効果を測定してみた。正則化なし loss policy accuracy value accuracy L2正則化係数 loss policy accuracy value accuracy 考察正則化なしでも、trainとlossにそれほど差がないが…

2017-11-03

将棋でディープラーニングするその41(モーメントありSGD)

AlphaGo Zero コンピュータ将棋 DeepLearning

AlphaGo Zeroのニューラルネットワークの学習の最適化に使用されているモーメントありSGDを将棋AIで試してみた。以前に、最適化手法を比較した際、Adamのような学習率を自動で調整する手法よりSGDの方が学習効率が高かった。 AlphaGo FanバージョンでもSGDが…

2017-11-01

将棋でディープラーニングするその40(入力特徴に履歴追加)

AlphaGo Zero コンピュータ将棋 DeepLearning

その39からずいぶん期間が空きましたが、AlphaGo Zeroの論文を読んで試したいことができたので、AlphaGo Zeroの論文の方法が将棋AIに応用が可能か少しずつ試していこうと思います。AlphaGo Zeroの特徴については、別の記事に記載していますので、参照してく…

2017-10-24

AlphaGo Zeroの論文を読むその5(ドメイン知識)

AlphaGo AlphaGo Zero コンピュータ囲碁

前回までで、実装に必要な内容についてほぼ解説しました。今回は、補足的な内容です。ドメイン知識論文には以下の一文が記載されている。 Our primary contribution is to demonstrate that superhuman performance can be achieved without human domain …