PythonでAlphaZero Shogiを実装する - TadaoYamaokaの開発日記

次の技術書典のネタとしてPythonでAlphaZero Shogiの完全コピーを実装しています。

自己対局と学習がようやく動くようになりました。

入力特徴と出力ラベルと探索の仕様はAlphaZero Shogiと完全に一致させました。

Pythonで作成する目的は、本にする上で強化学習の仕組みを理解できるように実装するためです。
それでも、そこそこの速度で動かないと少し試すにも時間がかかりすぎるので、分かりやすさを損なわない程度に、できる限り高速化も行っています。

Pythonで速度を出すために将棋ライブラリとして先日日記に書いたcshogiを使っています。
python-shogiと比べて、ビットボードの演算をC++で行っているので、指し手生成が高速になっています。

ゾブリストハッシュの実装もcshogi側で実装しました。

dlshogiで行っているのと似た方法で、複数エージェントを同時に対局させて、GPUによる推論をバッチ処理しています。
Pythonはスレッドによる並列化はGILがあるためほとんど効果がありませんが、この方法で疑似的に並列化することでPythonでもそこそこ並列化の効果がでます。

CSAフォーマットの棋譜を使って教師あり学習もできるので、強化学習しない場合でもそこそこ強い将棋AIが作れるようになっています。

ということで、技術書典に向けて執筆始めます（まだ1ページも書いていない・・・）