「dlshogi with GCT」として、第31回世界コンピュータ将棋選手権に参加しました。
本日は予選2日目で、dlshogiはシードのため2日目からの参加でした。
上位8チームが決勝進出になります。
結果は、30チーム中14位と決勝進出ならず残念な結果でした。
昨年の電竜戦で、dlshogiを使用したGCTが優勝したため、ディープラーニング勢の躍進が期待されていましたが、
決勝進出は、NNUE系が7チームという結果になりました。
唯一PALがディープラーニングで、決勝に進出しています。
(決勝に進出したRyfamateはdlshogiとやねうら王(NNUE)の合議のようです。)
dlshogiが振るわなかった理由について
電竜戦やfloodgateに比べると持ち時間が長いことが関係している
dlshogi(GCT)は、floodgate(10分10秒加算)では大会で使用したGPUより世代が古いV100×8(gct_model-0000225kai_v100x8)で、レーティング4430と水匠4(Suisho4_TR3990X)とほぼ互角になっています。
ローカルの持ち時間3分1秒加算の対局(たややん互換局面使用)でも、3GPUのdlshogiが40スレッドの水匠3改に対して、60%くらいの勝率になっていました。
GCTが優勝した電竜戦は、10分2秒加算でした。
今回の世界コンピュータ将棋選手権は、15分5秒加算のルールで、長い持ち時間になっています。
dlshogiは、Resnet10ブロック192フィルタという軽めのモデル(AlphaZeroは20ブロック256フィルタ)を使用して、指し手のみを学習しているため、長い持ち時間を活かしきれない条件だったと推測しています。
探索ノード数の上限をfloatの桁落ちの制約で3千万局面に設定しているため、上限に達することが多くありました。
また、指し手のみを学習している(AlphaZeroは方策の分布を学習する)ため、探索中の各局面で調べる手がかなり絞られており、探索の深さが60以上(多いときは90以上)になっていました。
持ち時間が長い分を、深さより幅方向に時間を使えた方が読み漏れが防げた可能性があります。
そのため、より大きなモデルの方が有効だったか、温度パラメータを調整する余地があったかもしれません。