TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Gumbel dlshogiを作るその１２（途中経過）

Gumbel AlphaZero Gumbel dlshogi

1サイクル100万局面生成して106サイクルまで学習できたので、途中経過を報告する。

学習スケジューラ

前回、記載した通り、サイクル数を閾値にして、以下の通りハイパーパラメータを変更している。

パラメータ	0～9	10～99	100～999
シミュレーション回数	16	32	64
ウィンドウサイズ	1	2	4
バッチサイズ	256	512	1024

評価精度

方策の正解率は、途中で停滞しているが、徐々に向上している。
100サイクル目以降で、シミュレーション回数が増えたタイミングで評価損失が大きく下がっている。

価値の正解率は、途中で停滞しているが、100サイクル目以降で、シミュレーション回数が増えたタイミングで向上している。

終局理由

千日手は、始めは多かったが、30サイクル目以降は小さい値で安定している。

入玉宣言は、13サイクル目で一時増えたが、その後減って60サイクル目以降はほぼ0になっている。

経過時間

106サイクルで、約3日22時間かかっている。

まとめ

Gumbel dlshogiの学習の途中経過を報告した。
徐々に評価精度が向上しているが、グラフは横ばいになっているため、これ以上大きく向上はしないかもしれない。
しばらく学習を続けて様子を見るつもりである。