2021-02-25から1日間の記事一覧

将棋AIの実験ノート：初期局面集の優先順位付きサンプリング

深層強化学習の手法に、Prioritized experience replay (PER)（優先順位付き経験再生）という方法がある。リプレイバッファに蓄積した経験データに優先順位を付けて、優先順位が高いほどより多くサンプリングする手法だ。優先順位の尺度には、TD誤差が用い…