TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Gumbel dlshogiを作る その12(途中経過)

1サイクル100万局面生成して106サイクルまで学習できたので、途中経過を報告する。

学習スケジューラ

前回、記載した通り、サイクル数を閾値にして、以下の通りハイパーパラメータを変更している。

パラメータ 0~9 10~99 100~999
シミュレーション回数 16 32 64
ウィンドウサイズ 1 2 4
バッチサイズ 256 512 1024


評価精度

方策の正解率は、途中で停滞しているが、徐々に向上している。
100サイクル目以降で、シミュレーション回数が増えたタイミングで評価損失が大きく下がっている。

価値の正解率は、途中で停滞しているが、100サイクル目以降で、シミュレーション回数が増えたタイミングで向上している。

終局理由

千日手は、始めは多かったが、30サイクル目以降は小さい値で安定している。

入玉宣言は、13サイクル目で一時増えたが、その後減って60サイクル目以降はほぼ0になっている。

経過時間

106サイクルで、約3日22時間かかっている。

まとめ

Gumbel dlshogiの学習の途中経過を報告した。
徐々に評価精度が向上しているが、グラフは横ばいになっているため、これ以上大きく向上はしないかもしれない。
しばらく学習を続けて様子を見るつもりである。