2018-04-25から1日間の記事一覧

将棋AIの進捗その20(自己対局による強化学習)

自己対局による強化学習を続けています。現在、1サイクルあたり500万局を自己対局で生成するサイクルを17サイクル実行したところです。教師ありでelmoで深さ8で生成した4.9億局面を事前学習したモデルを初期モデルとしています。初期モデルは、収束前のLe…