1サイクル100万局面生成して106サイクルまで学習できたので、途中経過を報告する。
学習スケジューラ
前回、記載した通り、サイクル数を閾値にして、以下の通りハイパーパラメータを変更している。
パラメータ | 0~9 | 10~99 | 100~999 |
---|---|---|---|
シミュレーション回数 | 16 | 32 | 64 |
ウィンドウサイズ | 1 | 2 | 4 |
バッチサイズ | 256 | 512 | 1024 |
評価精度
方策の正解率は、途中で停滞しているが、徐々に向上している。
100サイクル目以降で、シミュレーション回数が増えたタイミングで評価損失が大きく下がっている。
価値の正解率は、途中で停滞しているが、100サイクル目以降で、シミュレーション回数が増えたタイミングで向上している。
経過時間
106サイクルで、約3日22時間かかっている。
まとめ
Gumbel dlshogiの学習の途中経過を報告した。
徐々に評価精度が向上しているが、グラフは横ばいになっているため、これ以上大きく向上はしないかもしれない。
しばらく学習を続けて様子を見るつもりである。