今回で、最後です。
付録H 再分析
- MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。
- MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、元の探索よりも方策の品質が向上する可能性がある。
- この新しい方策は、MuZero訓練中の更新の80%の方策目標として使用される。
- さらに、最近のパラメータに基づくターゲットネットワークを使用して、価値関数のよる新鮮で安定したnステップブートストラップターゲットを提供する。
- さらに、他のいくつかのハイパーパラメータが調整された。 主にサンプルの再利用を増やし、価値関数の過剰適合を回避するためである。
- 具体的には、状態ごとに0.1ではなく2.0サンプルが取り出された。 価値目標は、方策および報酬目標の1.0の重みと比較して0.25まで重みが下げられた。 また、nステップ収益は、n = 10ステップではなく、n = 5ステップに削減された。
付録I 評価
- 各プレイヤーのEloレーティングを測定することにより、ボードゲームでのMuZero(図2)の相対的な強さを評価した。
Eloの評価
- Eloの評価は、訓練中のMuZeroの反復と、ベースラインプレーヤー(Stockfish、Elmo、またはAlphaZeroのいずれか)との間の1手あたり800シミュレーションのトーナメントの結果から計算された。
- ベースラインプレーヤーは、1手あたり100ミリ秒の同等の探索時間を使用した。
- ベースラインプレーヤーのEloレーティングは、公開されている値*2に固定されている。
Atariの評価
- Atariでは、特に指定のない限り、1移動あたり50シミュレーションを使用して、標準の30分またはエピソードあたり108,000フレーム*3に制限された、ゲームあたり1000エピソード以上の平均報酬を計算した。
- Atariシミュレーターの決定論的な性質の影響を緩和するために、30のnoopランダムスタートと人間のスタートの2つの異なる評価戦略を採用した。
- 前者の場合、各エピソードの開始時に、エージェントに制御を渡す前に、ランダムに0〜30回のnoopアクションがシミュレーターに適用される。
- 後者の場合、開始位置は人間のエキスパートプレイからサンプリングされ、エージェントにコントロールを渡す前にAtariシミュレーターを初期化する。
図S1:AtariでのMuZeroの5ゲームの再現性
- 合計報酬はy軸に表示され、百万単位の訓練ステップがx軸に表示されている。
- 暗い線は10回の個別の訓練実行のスコアの中央値を示し、明るい線は個別の訓練実行を示し、影付きの領域は25〜75パーセンタイルを示す。
表S1:30のランダムなno-opスタートの個々のゲームのAtariでのMuZeroの評価
- 各ゲームの最高の結果は太字で強調されている。
- 各エピソードは、最大30分のゲーム時間(108kフレーム)に制限されている。
- SimPLeは57ゲームのうち36ゲームでのみ評価され、利用できない結果は「-」で示されている。
- 人間の正規化スコアは次のように計算される。
図S4:個々のゲームのAtariでのMuZeroの学習曲線
- 合計報酬はy軸に表示され、何百万単位の訓練ステップがx軸に表示されている。
- 線は1000回の評価ゲームの平均スコアを示し、影付きの領域は標準偏差を示す。
感想
付録Hは、本文で少し触れられていた、リプレイバッファを小さくして、サンプル効率を高めたバージョンの詳細について述べられています。
付録Iは、評価結果の詳細について記載されています。
ボードゲームでは、ベースラインプログラム(チェスではStockfish、将棋はelmo、囲碁はAlphaZero)との1手800シミュレーションで、思考時間をそろえた条件で測定されています。ハードウェアの条件は不明です。
Atariの評価は、図S1を見ると毎回ばらつきがあり、ゲームによっては、再現性が低いものもあるようです。
表S1の各ゲームの評価を見ると、montezuma revengeのスコアは0で、まったく攻略できないゲームも見られます。
従来アルゴリズムで攻略できなかったゲームで攻略できるようになったというより、平均的にスコアがアップしています。
SOTAは、57ゲーム中37で、Ape-Xの5、R2D2の13に比べて、MuZeroアルゴリズムでカバーできる範囲は広そうです。