以前に、2024年11月時点のdlshogiの40ブロック512フィルタのモデルで、方策のみで指した場合の、floodgateでのレーティングを測定した。
その時点では、レーティングが2750という結果だった。
今回、50ブロック640フィルタのモデルを学習したので、同様に方策のみのレーティングを計測した。
50ブロック640フィルタのモデル
先日記事にした、将棋AI頂上決戦2025 氷彗 vs dlshogi で使用したモデルとモデル構造と訓練データをまったく同じにして、ブロック数とフィルタ数のみを変えたモデルを学習した。
パラメータ数は約2倍になっている。




テストデータ(floodgateの棋譜)に対する精度は、ブロック数とフィルタ数を増やしたモデルが、方策の正解率が0.64%、価値の正解率が0.185%向上している。
評価値付け替えの副作用
上記の学習には、40ブロック512フィルタのモデルで方策と価値の付け替えした局面を10億局面くらい使用している。
付け替えをしたデータを使用すると方策のエントロピーが低くなる事象が確認された(40ブロック512フィルタでの以前のモデルとの比較)。

これは、差し手がより決定的になる(探索範囲が狭くなる)ことを意味する。
ファインチューニング
評価値の付け替えをしたデータを除いた訓練データで追加学習をしたところ、エントロピーがある程度戻ることが確認できた。

方策の精度も少し向上した。価値の精度はほぼ変わらなかった。
評価値の付け替えは、学習初期に精度が上がる効果があるが、最終的には実データのみで学習した方がよい可能性がある。




NPS
NPSは初期局面で、40ブロック512ブロックのモデルと比較して、H100 PCIeで測定して、53.4%まで落ちる。
強さ
同一持ち時間
50ブロック640フィルタのモデル(pre60)と、電竜戦の40ブロック512フィルタのモデル(pre55)で、持ち時間400秒2秒加算で互角局面集から対局した結果は以下の通り。
リーグには氷彗も加えて、GPUはH100 PCIe 1枚を使用している。
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 pre55 : 5.1 13.2 570.0 1116 51 66 505 130 481 12 2 hisui-8th : 0.4 12.8 555.5 1110 50 70 482 147 481 13 3 pre60_50x640 : -5.4 12.8 548.5 1122 49 --- 482 133 507 12
探索速度が大きく落ちるため、精度は高くなったが、同一持ち時間では40ブロック512フィルタのモデルと比較して強くなっていない。
同一探索数
同一探索数では、50ブロック640フィルタのモデルが、R+67.7になった。
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 hisui-8th : 35.9 12.8 733.5 1275 58 97 681 105 489 8 2 pre60_50x640 : 15.9 12.2 687.0 1287 53 100 636 102 549 8 3 pre55 : -51.8 13.1 501.5 1282 39 --- 446 111 725 9
※hisuiはノード数を調整しているため参考値
※初期局面は、dlshogiの定跡から抽出した中終盤の互角局面
方策のみの強さ
50ブロック640フィルタの方策のみの強さを、floodgateに放流して測定した。
設定:
- 24手までは温度1で確率的に選ぶ
- 詰み探索はなし(詰みまで方策のみ)

レーティング2914になった。
以前の40ブロック512フィルタのモデルでは、2750だったので、それより高くなっている。
ただし、floodgateのレーティングは安定していないので、それほど信頼度は高くない。
方策のみでgikou2_1cにも1回勝っている。
まとめ
50ブロック640フィルタのモデルを学習した。
40ブロック512フィルタのモデルと同一訓練データで学習した場合、方策、価値ともに50ブロック640フィルタのモデルの方が精度が上がることが確認できた。
これは、パラメータ数を増やすほど同一データで精度が上がることを意味している。
しかし、同一持ち時間での強さは、変わらなかった。
探索速度が53.4%程度まで落ちるため、探索が浅くなり過ぎるためと考える。
持ち時間が変わると結果も変わるかもしれない。
floodgateで方策のみで指した場合の棋力を測定したところ、レーティングが2914になった。
以前の40ブロック512フィルタのモデルが2750だったので、さらに強くなった。
パラメータ数を増やすほど精度が上がる傾向は続いているため、引き続きパラメータ数を増やしてどこまで精度が上がるか検証したい。