2021-02-02から1日間の記事一覧

将棋AIの実験ノート：オフポリシー補正

強化学習において、サンプル効率が低いという課題の対処として、リプレイバッファを使用して過去の方策で生成したデータも学習に使用するということが行われている。一般的に挙動方策（経験を蓄積する際の方策）と推定方策（学習する方策）が異なる場合をオ…