TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2019-12-23から1日間の記事一覧

MuZeroの論文を読む その9(訓練)

付録G 訓練 訓練中に、MuZeroネットワークはK個の仮想ステップに対して展開され、MCTSアクターによって生成された軌跡からサンプリングされたシーケンスに合わせられる。 シーケンスは、リプレイバッファ内の任意のゲームから状態をサンプリングし、その状態…