dlshogiの今の10ブロックの192フィルタのモデルは、2018年6月から学習を開始して、何度かモデルの精度が飽和して強くならなくなったが、そのたびに新しい手動を導入して現在まで継続して強くできている。
201サイクル目からはリーグ戦を導入して、218サイクル目からはQの初期値を変更したことで、精度が大幅に向上した。
レート3500以上のfloodgateの棋譜との一致率と、USIエンジン(elmo(WCSC28))との勝率は以下のようになっている。
floodgateの棋譜との一致率
USIエンジンとの勝率
USIエンジンとの勝率は、250サイクルまでは1手500msで対局していたが、勝率が56%くらいで停滞していたので、251サイクルから1手600ms、255サイクルから800msに変更している。
それ以降は、valueの一致率が下がり続けている。
Apery(WCSC28)との1手3秒での勝率も、294サイクルで64%だったものが、309サイクルで59%と低下した。
対処
対処するため、300サイクル目から1サイクルあたりの生成局面数を250万局面から500万局面に増やすしてやり直すということを行ったところ、floodgateの棋譜との一致率、USIエンジンとの勝率ともに大幅に改善した。
floodgateの棋譜との一致率
USIエンジンとの勝率
当初、1サイクルあたり500万局面を生成していたが、1サイクルに2日以上かかるため、より早くサイクルを回すため56サイクル目から250万局面に変更していた。
なお、AlphaZero Shogiのチェックポイントごとのゲーム数は34,285なので、1ゲーム80手とすると2,742,800局面を生成している。
Apery(WCSC28)との1手3秒での勝率は、305サイクル目で、62%で今のところ誤差範囲で低下していない。
手探りな対処になっているが今のモデルもまだ強くできそうなので、世界コンピュータ将棋オンライン大会まで学習を継続するつもりである。