TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

【dlshogi】最新モデルが公開バージョンからどれくらい強くなっているか

前回書いた通り、方策の強さを手軽に測定できるようになったので、公開している第2回世界将棋AI電竜戦エキシビジョンバージョンから最新モデルがどれくらい強くなっているか測定した。

以前に、WCSC32版dlshogiと探索ありで比較したときは、互角局面集を使用して同一持ち時間でR+143.8、固定ノード数でR+157.8だった。

測定方法

  • 探索なしで方策のみで指して連続対局を行い、方策の強さを測定する。
  • 互角局面集を使用
  • 温度は0
  • df-pnで詰み探索を行う

測定結果

# PLAYER      :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)     W    D     L  D(%)
1 pre55       :    96.3    7.7  3818.0    6000    64      88  3409  818  1773    14
2 pre56       :    86.7   13.3  1132.5    2000    57      91   974  317   709    16
3 pre57       :    71.8   13.6   978.0    2000    49      86   828  300   872    15
4 pre54       :    62.8   14.1   939.5    2000    47     100   779  321   900    16
5 pre44       :   -18.8   10.7  1868.5    4000    47     100  1615  507  1878    13
6 dr2_exhi    :  -298.8   18.1   263.5    2000    13     ---   168  191  1641    10

pre55 : 40ブロック512フィルタのラージカーネル※+Transformerモデル
pre56 : 40ブロック512フィルタのラージカーネル※モデル
pre57 : 実験用モデル
pre54 : 40ブロック512フィルタのResNetモデル
pre44 : 30ブロック384フィルタのResNetモデル
dr2_exhi : 第2回世界将棋AI電竜戦エキシビジョンバージョン

※Ryfamate Cross Network (RyfcNet)スタイルで9x1,1x9カーネルを並列にしたものに、位置情報を保持するため1x1を加えたものを5ブロック間隔で使用
※ラージカーネルそのものではないが9x9のラージカーネルを分解して計算量を削減していると解釈できる

最新モデル(pre55)は、第2回世界将棋AI電竜戦エキシビジョンバージョンと比べて方策の強さがR+395.1となった。
勝率に換算すると、90.67%となる。

まとめ

最新モデルが公開しているバージョンからどれくらい強くなっているか測定した。
互角局面集を使用した場合、R+395.1だけ方策が強くなっていることが確認できた。