将棋AIの進捗その24(自己対局による強化学習)

これまではAperyの初期局面集にfloodgateの棋譜を加えたものを初期局面集として自己対局を行っていたが、中終盤のバリエーションを増やすため、

やねうら王教師局面からAperyの初期局面集を作成(評価値200以内局面を抽出)
初期局面集から詰みの局面を除く

という方法で、初期局面集を作成した。
出来上がった初期局面集は、重複なしで394,003,767局面になった。
これだけあれば、自己対局で局面が重複することはないため、自己対局の効率を上げることができる。

自己対局による重複局面数の比較

初期局面集を変更する前後で、自己対局の結果生成された局面の重複率は以下の通りであった。

条件

自己対局で500万局面生成したときの重複率
初期局面集からランダムに局面を選択し、1手ランダムで指した局面を初期局面として自己対局

	重複率
変更前	0.1869%
変更後	0.0767%

変更後の初期局面集を使うことで、重複率が変更前の41%に減っている。

自己対局による強化学習の進捗

elmoで深さ8で生成した教師局面4.9億局面で事前学習したモデルから、自己対局で1イテレーション500万局面生成を19イテレーション繰り返して学習したモデルで、教師ありで収束するまで学習したモデル(11億局面)とだいたい同じ強さになった。

事前学習したモデルでは、教師ありで収束するまで学習したモデルとの1手3秒の対局で、2勝8敗(勝率20%)でだったが、19イテレーション強化学習したモデルでは、5勝5敗(勝率50%)とほぼ同じ強さになった。
GPSFishとの対局でも、5勝5敗(勝率50%)となっている。

対局数が少なく検証が不十分だが、自己対局による強化学習で教師あり学習より強くできることがある程度確認できた。
しばらくこの方法で強化学習を続ける予定である。

モデルの検証

いままではelmoで深さ8で生成した教師局面を学習局面とテスト局面に分けて、モデルの検証を行っていたが、自己対局による強化学習を行うとelmoで生成した局面に対して、policyの一致率もvalueの一致率も低下する傾向にあった。
これでは学習が進んでいることがわかりにくいため、テスト局面を2017年以降のfloodateのレート3500以上の棋譜から作成するようにした。
以下のツールで、CSA形式のファイルから評価値と対局ソフトのレートを条件を指定してhcpe形式で局面を抽出した。
ElmoTeacherDecoder/csa_to_hcpe.py at master · TadaoYamaoka/ElmoTeacherDecoder · GitHub
重複局面を除いて856,923局面が抽出できた。

このテスト局面を使用すると、自己対局による強化学習で学習したモデルのpolicyの一致率もvalueの一致率は以下のようになった。

イテレーション	policyの一致率	valueの一致率
1	0.41755396	0.6928097
2	0.42115012	0.69208926
3	0.42269236	0.69095576
4	0.42438433	0.6935829
5	0.42493716	0.69430405
6	0.42519188	0.6961772
7	0.42581162	0.6924004
8	0.42696634	0.6953033
9	0.42807713	0.6971584
10	0.42900684	0.6960269
11	0.42939773	0.69955724
12	0.4297164	0.6982497
13	0.430544	0.69985163
14	0.43124306	0.6994239
15	0.43179193	0.6997897
16	0.43170047	0.7023887
17	0.4324307	0.70205444
18	0.43276954	0.70325536
19	0.43360597	0.70227855

floodgateの棋譜に対しては、policyとvalueどちらも一致率が上昇傾向にあることが確かめられた。

2018/6/20追記

自己対局による強化学習の学習開始モデルとした事前学習（49億局面）したモデルと、教師ありで収束するまで（11億局面）学習したモデルで、floodgateのレート3500以上の棋譜に対して一致率がどうなっているかを検証した。

	policyの一致率	valueの一致率
事前学習（4.9億局面）	0.4090266	0.68762606
教師ありで収束するまで（11億局面）	0.41536444	0.6936132

事前学習したモデルは自己対局による強化学習を行ったモデルよりも、policy、valueともに一致率が低い。
自己対局による強化学習を行ったモデルは、教師ありで収束するまで学習したモデルよりもpolicy、valueともに一致率が高くなっている。
自己対局による強化学習で、教師ありよりも強くできることが裏付けられた。