【dlshogi】方策のみで指した場合のfloodgateでのレーティング

前回、dlshogiの最新モデルで方策のみで連続対局した場合の強さを測定した。
結果、第2回世界将棋AI電竜戦エキシビジョンバージョンと比べて方策がR+395.1だけ強くなっていることわかった。

今回は、floodgateに放流して、レーティングを測定した。

方策のみで終局までいっさい探索を行わないバージョンと、詰み探索を行うバージョンの2つのバージョンで計測した。

dlshogiは、対局時にはdf-pnで詰み探索を行っており、詰みの手順を学習する必要がないため、学習時には詰みを見つけた後の手は除外している。詰みを見つけるまでの強さを測るため、df-pnによる詰み探索を行うバージョンでも計測した。

16手までは、温度1として、確率的に手を選ぶ。
16手以降は、温度0として、最善手を選ぶ。

2.5日ほど放流した結果、レーティングは以下のようになった。

条件	名前	レーティング
方策 + df-pn	dlshogi_policy_only_dfpn	2890
方策のみ(詰み探索なし)	dlshogi_policy_only	2750

方策のみのレーティングは、2750になった。

df-pnの有無で、レーティング差は140で、大きく差はなかった。
最新モデルは、詰み手順を学習していないが、詰ますことができるようになっているようである。

2022年に15ブロック224フィルタのモデルで、1プレイアウト(方策+3手詰み)で計測した際は、1961だったので、R+789になっている。
15ブロック224フィルタのモデルは、公開している第2回世界将棋AI電竜戦エキシビジョンバージョンに近いモデルである。

なお、NNUE系の最新と言える水匠10βで1000ノード探索した場合のレーティングは、1819である。

dlshogiの最新モデルで、方策のみで指した場合の、floodgateでのレーティングを測定した。
結果、方策のみでレーティングが2750になることがわかった。

また、詰み探索を行った場合でもレーティング差は小さく、最新モデルは方策のみで詰ますことできるようになっていることがわかった。

TadaoYamaokaの開発日記