TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

第2回 電竜戦TSEC 結果報告

7/17~18にかけて実施された第2回 電竜戦TSECにdlshogiというソフトで参加しました。
チームとしてはGCT電竜でも参加しています。
第2回世界将棋AI 電竜戦TSEC -中継サイト

ファイナルリーグとB級リーグに分かれて実施されて、7/3に行われた予選で上位2チームでファイナルリーグ、それ以外がB級リーグで競うという構成です。

dlshogiは予選では、ファイナルリーグに残れなかったため、B級リーグでの参加です。
TSECは、通常のコンピュータ将棋の大会とは異なり、ほぼ互角の指定局面から開始するという特徴があります。
戦型別に3部構成に分かれて、第1部は相振B級その他部門、第2部 相居飛車部門、第3部は対抗系部門となっています。

結果は、B級48チーム中、

第一部 2位
第二部 1位
第三部 1位

で、2部門で優勝、B級総合優勝という結果でした。

予選は学習が間に合わずいまいちな成績でしたが、本選では調整が間に合いR+150くらい強くなっていました。

dlshogiとGCTの違い

GCT電竜の方は、世界コンピュータ選手権のdlshogi with GCTと同じモデルで参加しました。
これは、ResNet10ブロック192フィルタのモデルで、floodgateの棋譜とAobaZeroの棋譜とdlshogiの強化学習棋譜を混ぜて学習しています。

一方、今回のdlshogiの方は、ResNet15ブロック224フィルタで、モデルを初期値から学習しています。
教師データは、dlshogi with GCTの強化学習のデータと、入玉宣言の対策のために水匠などによる自己対局で入玉宣言まで対局した棋譜で事前学習して、強化学習で教師データを生成しました。

また、dlshogi with GCTは指し手のみを学習していましたが、方策の分布を学習するようにしています。
方策の分布を学習すると精度は高くなるものの、探索パラメータを調整しないと実際の対局では弱くなるため、時間をかけて探索パラメータの調整を行いました。

まとめ

B級での優勝なので、ディープラーニング+MCTSの将棋AIが、Stockfish系の将棋AIを上回ったというにはインパクトが少ないですが、秋の電竜戦では総合優勝できるように頑張りたいと思います。
将棋の検討に使えるようにモデルを公開したいのですが、モデルを公開してしまうとdlshogiを使って定跡を作られてしまってdlshogiの序中盤のアドバンテージがなくなってしまうため(個人的には定跡などアンチコンピュータ戦略で勝たれると面白くないので)、今のところ大会で成果を出すまでは公開を控えたいと思っています。