2021-02-07から1日間の記事一覧

将棋AIの実験ノート：方策の分布を学習

一般的な方策勾配法では、選択した行動aに対して、損失を計算するが、 AlphaZeroでは、方策の損失は、探索から求めた方策の確率分布を使用している。 dlshogiでは、前者をベースにしたActor-Criticで更新を行っている。後者の確率分布を学習する場合と、ど…