TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

【dlshogi】方策のみで指した場合のfloodgateでのレーティング(更新)

以前に、2024年11月時点のdlshogiの40ブロック512フィルタのモデルで、方策のみで指した場合の、floodgateでのレーティングを測定した。
その時点では、レーティングが2750という結果だった。

今回、50ブロック640フィルタのモデルを学習したので、同様に方策のみのレーティングを計測した。

50ブロック640フィルタのモデル

先日記事にした、将棋AI頂上決戦2025 氷彗 vs dlshogi で使用したモデルとモデル構造と訓練データをまったく同じにして、ブロック数とフィルタ数のみを変えたモデルを学習した。
パラメータ数は約2倍になっている。




テストデータ(floodgateの棋譜)に対する精度は、ブロック数とフィルタ数を増やしたモデルが、方策の正解率が0.64%、価値の正解率が0.185%向上している。

評価値付け替えの副作用

上記の学習には、40ブロック512フィルタのモデルで方策と価値の付け替えした局面を10億局面くらい使用している。
付け替えをしたデータを使用すると方策のエントロピーが低くなる事象が確認された(40ブロック512フィルタでの以前のモデルとの比較)。

これは、差し手がより決定的になる(探索範囲が狭くなる)ことを意味する。

ファインチューニング

評価値の付け替えをしたデータを除いた訓練データで追加学習をしたところ、エントロピーがある程度戻ることが確認できた。

方策の精度も少し向上した。価値の精度はほぼ変わらなかった。
評価値の付け替えは、学習初期に精度が上がる効果があるが、最終的には実データのみで学習した方がよい可能性がある。





NPS

NPSは初期局面で、40ブロック512ブロックのモデルと比較して、H100 PCIeで測定して、53.4%まで落ちる。

強さ

同一持ち時間

50ブロック640フィルタのモデル(pre60)と、電竜戦の40ブロック512フィルタのモデル(pre55)で、持ち時間400秒2秒加算で互角局面集から対局した結果は以下の通り。
リーグには氷彗も加えて、GPUはH100 PCIe 1枚を使用している。

   # PLAYER          :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)
   1 pre55           :     5.1   13.2   570.0    1116    51      66  505  130  481    12
   2 hisui-8th       :     0.4   12.8   555.5    1110    50      70  482  147  481    13
   3 pre60_50x640    :    -5.4   12.8   548.5    1122    49     ---  482  133  507    12

探索速度が大きく落ちるため、精度は高くなったが、同一持ち時間では40ブロック512フィルタのモデルと比較して強くなっていない。

同一探索数

同一探索数では、50ブロック640フィルタのモデルが、R+67.7になった。

   # PLAYER          :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)
   1 hisui-8th       :    35.9   12.8   733.5    1275    58      97  681  105  489     8
   2 pre60_50x640    :    15.9   12.2   687.0    1287    53     100  636  102  549     8
   3 pre55           :   -51.8   13.1   501.5    1282    39     ---  446  111  725     9

※hisuiはノード数を調整しているため参考値
※初期局面は、dlshogiの定跡から抽出した中終盤の互角局面

方策のみの強さ

50ブロック640フィルタの方策のみの強さを、floodgateに放流して測定した。

設定:

  • 24手までは温度1で確率的に選ぶ
  • 詰み探索はなし(詰みまで方策のみ)

レーティング2914になった。
以前の40ブロック512フィルタのモデルでは、2750だったので、それより高くなっている。
ただし、floodgateのレーティングは安定していないので、それほど信頼度は高くない。

方策のみでgikou2_1cにも1回勝っている。

まとめ

50ブロック640フィルタのモデルを学習した。
40ブロック512フィルタのモデルと同一訓練データで学習した場合、方策、価値ともに50ブロック640フィルタのモデルの方が精度が上がることが確認できた。
これは、パラメータ数を増やすほど同一データで精度が上がることを意味している。

しかし、同一持ち時間での強さは、変わらなかった。
探索速度が53.4%程度まで落ちるため、探索が浅くなり過ぎるためと考える。
持ち時間が変わると結果も変わるかもしれない。

floodgateで方策のみで指した場合の棋力を測定したところ、レーティングが2914になった。
以前の40ブロック512フィルタのモデルが2750だったので、さらに強くなった。

パラメータ数を増やすほど精度が上がる傾向は続いているため、引き続きパラメータ数を増やしてどこまで精度が上がるか検証したい。