将棋AIの進捗その3 - TadaoYamaokaの開発日記

以前の日記で、電王トーナメントに出るつもりと書いていましたが、申し込みをしました。
予選通過も厳しそうですがとりあえず頑張ります。

さて、前回からの進捗ですが、35億局面の学習が3エポック回したところで飽和しました。
一致率は、Policy Networkが46%、Value Networkが78.1%となりました。

Policy Networkは強化学習を行っているので、単純に一致率では評価できませんが、少し微妙な感じです。
入力特徴、ネットワーク構成、フィルターサイズなど変えて実験したいですが、やり直す時間もなさそうなので、一旦これで完了として他の改良に着手しようかと思います。

モデル学習が終わったので、昨晩からfloodgateに放流してみました。

f:id:TadaoYamaoka:20170917091642p:plain

レーティングは、2710となっています。

gpsfish_normal_1cと同じくらいの強さにはなっています。
同じディープラーニングを使っているShogiNetSearchには勝っているようなので、ディープラーニング＋モンテカルロ木探索の有用性はそれなりに示せているかと思います。

上位ソフトには全く勝てていません。
原因がどこにあるか詳細に分析をしたいと思っていますが、気づいたところでは終盤になるにつれPolicy Networkで読み漏れが発生していて、読み漏れが起きる局面ではValue Networkも正しい値をつけられていないようです。

終盤では従来の手法の方が有効そうなので、終盤は従来の手法も取り入れた方がよさそうです。

AlphaGoでも、末端局面の評価は、Value Networkとプレイアウトの平均としているので、それを参考にValue Networkと従来の手法(3手読みくらい)の平均とした場合にどうなるか次に試す予定です。
Value Networkの実行中はCPUは遊んでいるので、数手くらいであれば従来の手法で探索を行っても速度面のデメリットはありません。
Policy Networkの読み漏れ対策としては、最小選択確率を調整したり、遷移確率にノイズを付加して、読み漏れする局面も低い確率で探索させるようにする予定です。