世界コンピュータ選手権まで残り1ヵ月もなくなったので、強化学習で強くするのはあまり望めないので探索部の調整を行っている。
以前のdlshogiでは、Policyの読み漏れによって、受けを間違えて数手先で詰まされる状況がよく起きていたため、Policyにノイズを加えて対策を行っていた。
ノイズをどれくらい加えるかは、GPSFishと対局の勝率から手動で調整を行い、効果が高かった1手目と3手目に加えていた。
手動で数回の実験で適当に決めていたこともあるので、今回ノイズの効果を測定し直すことにした。
測定条件
GPSFishに加えて技巧2とも対局を行って1手3秒、100回対局の勝率をノイズの条件を変えて測定した。
GPSFishとの対局は、CPUはCore i7-7700K(4コア)、GPUはGeForce 1080(1枚)。
技巧2との対局は、CPUはCore i7-6700K(4コア)、GPUはGeForce 1080Ti(1枚)。
やねうら王互角局面集を使用して先後入れ替えて対局。
ノイズは、0.3%の確率で1になる分布をPolicyとεの割合で按分する。
3手目のノイズは0.1%の確率でPolicyの確率を1.5倍にする。
測定結果
GPSFish
条件 | 勝率 |
---|---|
1手目(ε=0.5)と3手目 | 70% |
1手目のみ(ε=0.5) | 70% |
1手目のみ(ε=0.25) | 74% |
ノイズなし | 78% |
技巧2
条件 | 勝率 |
---|---|
1手目(ε=0.5)と3手目 | 12% |
1手目のみ(ε=0.5) | 24% |
1手目のみ(ε=0.25) | 22% |
ノイズなし | 26% |
考察
ノイズには少なからず効果があると考えていたが、ノイズがない場合がGPSFishに対しても技巧2に対しても一番勝率が良かった。
Policyの精度が低いうちは読み漏れによって、浅いトラップを見逃す可能性が高いが、Policyの精度が上がると探索の精度を落とすことになっていたようだ。
追試で、1手目(ε=0.5)と2手目にノイズを加えてみたが、GPSFishに対して勝率は67%と一番低い結果になった。
今までノイズありで、探索パラメータを調整していたため、大会までにノイズなしで調整し直すことにする。