TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

dlshogiにおける思考時間と強さの関係 追試

以前に、dlshogiにおける思考時間と強さの関係を調べたことがあった。
tadaoyamaoka.hatenablog.com
tadaoyamaoka.hatenablog.com

思考時間と強さは対数の関係にあり、思考時間を2倍にすると水匠2(1000万ノード固定)を基準に、平均でR+84伸びるという結果だった。

48先生のfloodgateでの調査では、プレイアウト数が1024倍になると、R+1300になっている。2倍あたりではR+130になる。
bleu48.hatenablog.com


最新のモデルでどうなるか気になったため、測定した。
強さは、水匠5(やねうら王の最新のソースビルド)を基準にした。

測定条件

思考時間5秒の水匠5を基準に、dlshogiの思考時間1秒と思考時間8秒で比較した。
水匠5は10スレッド、dlshogiは、V100×1、3スレッドで測定した。
棋譜が重複しないように、dlshogi互角局面を使用した。

測定結果

   # PLAYER                          :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)
   1 dlshogi-1gpu-3th-byoyomi8000    :   140.7   31.2   251.5     329    76     100  240   23   66     7
   2 suisho5-10th-byoyomi5000        :   -66.6   18.7   247.0     661    37      65  225   44  392     7
   3 dlshogi-1gpu-3th-byoyomi1000    :   -74.1   29.4   162.5     332    49     ---  152   21  159     6

White advantage = 27.47 +/- 14.37
Draw rate (equal opponents) = 7.27 % +/- 1.02

思考時間1秒から8秒(8倍)にすることで、R+214.8になった。
思考時間2倍あたりでは、R+71.6になる。

以前の測定結果よりは小さい値で、48先生のfloodgateでの調査と比較すると半分程度である。

強くなると、思考時間を増やしてもレーティングの伸びは小さくなるという仮説が成り立つかもしれない。
ただし、測定条件や対局相手がそれぞれ異なるため、その影響によるものかもしれない。

思考時間を16秒、32秒と変えて測定するともう少し関係が見えるが、測定に時間がかかるので別途気が向いたら測定してみる。

追記

上記の実験では基準を水匠にしているが、dlshogi同士だともっと差が開く。
ただし、同系列の対局によるレーティングの測定は、floodgateのレーティングとかなり乖離するためあまり信用できない。

   # PLAYER                          :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)
   1 dlshogi-1gpu-3th-byoyomi8000    :   217.1   31.1   309.0     335    92     100  297   24   14     7
   2 dlshogi-1gpu-3th-byoyomi1000    :  -217.1   31.1    26.0     335     8     ---   14   24  297     7

White advantage = 11.51 +/- 17.40
Draw rate (equal opponents) = 15.70 % +/- 3.32