2018-07-01から1ヶ月間の記事一覧

AlphaZeroの価値関数の目標をQ値にすると改善する

この記事で、AlphaZeroの再実装を試した際に、価値関数の学習目標をゲームの結果からQ値に変更することで、エラー率が低下するという報告がされています。 medium.comゲームの結果とQ値の平均を目標とするとさらにエラー率が低下し、ゲームの結果からQ値に段…