以前に、dlshogiにおける思考時間と強さの関係を調べたことがあった。
tadaoyamaoka.hatenablog.com
tadaoyamaoka.hatenablog.com
思考時間と強さは対数の関係にあり、思考時間を2倍にすると水匠2(1000万ノード固定)を基準に、平均でR+84伸びるという結果だった。
48先生のfloodgateでの調査では、プレイアウト数が1024倍になると、R+1300になっている。2倍あたりではR+130になる。
bleu48.hatenablog.com
最新のモデルでどうなるか気になったため、測定した。
強さは、水匠5(やねうら王の最新のソースビルド)を基準にした。
測定条件
思考時間5秒の水匠5を基準に、dlshogiの思考時間1秒と思考時間8秒で比較した。
水匠5は10スレッド、dlshogiは、V100×1、3スレッドで測定した。
棋譜が重複しないように、dlshogi互角局面を使用した。
測定結果
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 dlshogi-1gpu-3th-byoyomi8000 : 140.7 31.2 251.5 329 76 100 240 23 66 7 2 suisho5-10th-byoyomi5000 : -66.6 18.7 247.0 661 37 65 225 44 392 7 3 dlshogi-1gpu-3th-byoyomi1000 : -74.1 29.4 162.5 332 49 --- 152 21 159 6 White advantage = 27.47 +/- 14.37 Draw rate (equal opponents) = 7.27 % +/- 1.02
思考時間1秒から8秒(8倍)にすることで、R+214.8になった。
思考時間2倍あたりでは、R+71.6になる。
以前の測定結果よりは小さい値で、48先生のfloodgateでの調査と比較すると半分程度である。
強くなると、思考時間を増やしてもレーティングの伸びは小さくなるという仮説が成り立つかもしれない。
ただし、測定条件や対局相手がそれぞれ異なるため、その影響によるものかもしれない。
思考時間を16秒、32秒と変えて測定するともう少し関係が見えるが、測定に時間がかかるので別途気が向いたら測定してみる。
追記
上記の実験では基準を水匠にしているが、dlshogi同士だともっと差が開く。
ただし、同系列の対局によるレーティングの測定は、floodgateのレーティングとかなり乖離するためあまり信用できない。
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 dlshogi-1gpu-3th-byoyomi8000 : 217.1 31.1 309.0 335 92 100 297 24 14 7 2 dlshogi-1gpu-3th-byoyomi1000 : -217.1 31.1 26.0 335 8 --- 14 24 297 7 White advantage = 11.51 +/- 17.40 Draw rate (equal opponents) = 15.70 % +/- 3.32