その39からずいぶん期間が空きましたが、AlphaGo Zeroの論文を読んで試したいことができたので、AlphaGo Zeroの論文の方法が将棋AIに応用が可能か少しずつ試していこうと思います。
AlphaGo Zeroの特徴については、別の記事に記載していますので、参照してください。
AlphaGo Zeroでは、入力特徴は現局面を含む8手までの履歴局面の石の座標になっています。
入力特徴に履歴が必要な理由は、論文では囲碁にはコウがあるためと説明されています。
将棋にはコウはありませんが、駒の取り合いや千日手があるため、履歴の情報は有用と思われます。
前回までに作成したニューラルネットワーク(Wide ResNet、5ブロック、PolicyとValueの同時出力)の入力特徴に履歴を追加して試してみました。
入力特徴は、前回までと同様に駒の配置と持ち駒、王手がかかっているか、効き数の情報を8手まで持たせます。
学習局面は、elmo_for_learnで履歴も出力できるようにして探索の深さ8で生成しました。学習前に重複を排除してシャッフルしています。
※2017/11/3 データに誤りがあったので修正しました。