AlphaGo Zeroの論文を読む - TadaoYamaokaの開発日記

今日のAlphaGo Zeroのニュースは衝撃でした。

将棋AIで方策勾配で強化学習を行ったときは、発散してうまくいかなかったので
教師データで最初に訓練が必要と思っていました。
それが、自己対局のみで強くできるとは驚きです。

論文が公開されたので、使われたテクニックを調べていきたいと思います。

まだ全部読んでいませんが、ざっくり初めの方を読んで以下の特徴があるようです。

Methodに自己対局と訓練方法について、かなり詳細に書かれていますので、
理解した内容を少しずつ書いていこうと思います。

おそらくこの方法は将棋AIにも応用可能と思われます。

PolicyとValueを1つのネットワークで出力すのは、
自分の将棋AIでも行っていて効果を確かめていましたが、
別々のネットワークの方が実は良いのではと思っていましたので、
自信が得られました。

モンテカルロ木探索の部分はrolloutを使わず1回で展開するのは、
自分の将棋AIと基本は同じ方法ですが、
ボルツマン分布の温度パラメータを動的に変えているようです。
将棋でも効果があるか実験したいところです。

続く。。。