前回書いた通り、方策の強さを手軽に測定できるようになったので、公開している第2回世界将棋AI電竜戦エキシビジョンバージョンから最新モデルがどれくらい強くなっているか測定した。
以前に、WCSC32版dlshogiと探索ありで比較したときは、互角局面集を使用して同一持ち時間でR+143.8、固定ノード数でR+157.8だった。
測定方法
- 探索なしで方策のみで指して連続対局を行い、方策の強さを測定する。
- 互角局面集を使用
- 温度は0
- df-pnで詰み探索を行う
測定結果
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 pre55 : 96.3 7.7 3818.0 6000 64 88 3409 818 1773 14 2 pre56 : 86.7 13.3 1132.5 2000 57 91 974 317 709 16 3 pre57 : 71.8 13.6 978.0 2000 49 86 828 300 872 15 4 pre54 : 62.8 14.1 939.5 2000 47 100 779 321 900 16 5 pre44 : -18.8 10.7 1868.5 4000 47 100 1615 507 1878 13 6 dr2_exhi : -298.8 18.1 263.5 2000 13 --- 168 191 1641 10
pre55 : 40ブロック512フィルタのラージカーネル※+Transformerモデル
pre56 : 40ブロック512フィルタのラージカーネル※モデル
pre57 : 実験用モデル
pre54 : 40ブロック512フィルタのResNetモデル
pre44 : 30ブロック384フィルタのResNetモデル
dr2_exhi : 第2回世界将棋AI電竜戦エキシビジョンバージョン
※Ryfamate Cross Network (RyfcNet)スタイルで9x1,1x9カーネルを並列にしたものに、位置情報を保持するため1x1を加えたものを5ブロック間隔で使用
※ラージカーネルそのものではないが9x9のラージカーネルを分解して計算量を削減していると解釈できる
最新モデル(pre55)は、第2回世界将棋AI電竜戦エキシビジョンバージョンと比べて方策の強さがR+395.1となった。
勝率に換算すると、90.67%となる。
まとめ
最新モデルが公開しているバージョンからどれくらい強くなっているか測定した。
互角局面集を使用した場合、R+395.1だけ方策が強くなっていることが確認できた。