MuZeroの論文を読むその１０（再分析、評価）

MuZero 強化学習

今回で、最後です。付録H 再分析 MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。 MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、…

2019-12-23

MuZeroの論文を読むその９（訓練）

MuZero 強化学習

付録G 訓練訓練中に、MuZeroネットワークはK個の仮想ステップに対して展開され、MCTSアクターによって生成された軌跡からサンプリングされたシーケンスに合わせられる。シーケンスは、リプレイバッファ内の任意のゲームから状態をサンプリングし、その状態…

2019-12-19

MuZeroの論文を読むその８（ネットワーク）

MuZero 強化学習

付録E ネットワーク入力表現関数ボードゲーム囲碁、チェス、将棋の表現関数への入力として使用されるボード状態の履歴は、AlphaZeroと同様に表される。囲碁および将棋では、AlphaZeroのように最後の8つのボード状態をエンコードする。チェスでは、引き…

2019-12-15

MuZeroの論文を読むその７（ハイパーパラメータ、データ生成）

MuZero 強化学習

付録C ハイパーパラメータ簡単にするために、以前の研究と同じアーキテクチャの選択とハイパーパラメータを優先的に使用する。具体的には、AlphaZeroのネットワークアーキテクチャと探索の選択肢から始めた。ボードゲームでは、AlphaZeroと同じUCB定数、…

2019-12-14

MuZeroの論文を読むその６（探索）

MuZero 強化学習

付録B 探索 MuZeroで使用される探索アルゴリズムについて説明する。私たちのアプローチは、信頼区間の上限(UCB; upper confidence bounds)のあるモンテカルロ木探索、単一エージェントドメインの最適な方策とゼロサムゲームのミニマックス価値関数に漸近的…

2019-12-07

MuZeroの論文を読むその５（AlphaZeroとの比較）

MuZero

付録A AlphaZeroとの比較 MuZeroは、AlphaGo Zero*1やAlphaZero*2よりも一般的な設定向けに設計されている。 AlphaZeroのプランニング AlphaGo ZeroとAlphaZeroでは、プランニングプロセスは2つの別個のコンポーネントを使用する。シミュレーターは、ゲーム…