しばらく忙しかったのでコンピュータ将棋の開発できていませんでした。
ぼちぼち再開します。
12月くらいにブートストラップのバグを修正してelmoの深さ8で生成した局面を使って学習をやり直しましたが、強さはあまり変わりませんでした。
5.8億局面くらいでtest accuracyがサチります。
定跡なしで1手3秒でGPSfishと互角くらい。
学習局面の質を上げないとこれ以上強くするのは無理そうです。
次は、elmoの局面で学習したモデルから開始して、AlphaZeroと同じような自己対局で学習局面を生成することを試そうと思っています。
AlphaZeroのようにスクラッチからの学習ではないのでうまくいくかはわかりませんが。
ということで、これからがんばる状況ですが第28回世界コンピュータ将棋選手権に申し込みました。
今回はコンピュータ囲碁からの参加者もいてディープラーニング勢も増えて楽しみですね。
Crazy Shogiは、AlphaZeroのアルゴリズムを実装したということで興味があります。