MuZeroの論文を読むその１０（再分析、評価）

今回で、最後です。

付録H 再分析

MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。
MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、元の探索よりも方策の品質が向上する可能性がある。
この新しい方策は、MuZero訓練中の更新の80％の方策目標として使用される。
さらに、最近のパラメータ $\theta^-$ に基づくターゲットネットワーク $\cdot, v^- = f_{\theta^-}(s^0)$ を使用して、価値関数のよる新鮮で安定したnステップブートストラップターゲット $z_t = u_{t+1} + \gamma u_{t+2} + ... + \gamma^{n-1} u_{t+n} + \gamma^n v^-_{t+n}$ を提供する。
さらに、他のいくつかのハイパーパラメータが調整された。主にサンプルの再利用を増やし、価値関数の過剰適合を回避するためである。
具体的には、状態ごとに0.1ではなく2.0サンプルが取り出された。価値目標は、方策および報酬目標の1.0の重みと比較して0.25まで重みが下げられた。また、nステップ収益は、n = 10ステップではなく、n = 5ステップに削減された。

f:id:TadaoYamaoka:20191225084442p:plain

付録I 評価

各プレイヤーのEloレーティングを測定することにより、ボードゲームでのMuZero（図2）の相対的な強さを評価した。

f:id:TadaoYamaoka:20191125231748p:plain

ロジスティック関数 $p(a \text{ defeats } b) = (1 + 10^{(c_{\mathrm{elo}} (e(b) - e(a)))})^{-1}$ によってプレーヤーaがプレーヤーbを破る確率を推定し、標準定数 $c_{\mathrm{elo}} = 1/400$ を使用してBayesEloプログラム*1によって計算されたベイジアンロジスティック回帰により評価 $e(\cdot)$ を推定する。

Eloの評価

Eloの評価は、訓練中のMuZeroの反復と、ベースラインプレーヤー（Stockfish、Elmo、またはAlphaZeroのいずれか）との間の1手あたり800シミュレーションのトーナメントの結果から計算された。
ベースラインプレーヤーは、1手あたり100ミリ秒の同等の探索時間を使用した。
ベースラインプレーヤーのEloレーティングは、公開されている値*2に固定されている。

Atariの評価

Atariでは、特に指定のない限り、1移動あたり50シミュレーションを使用して、標準の30分またはエピソードあたり108,000フレーム*3に制限された、ゲームあたり1000エピソード以上の平均報酬を計算した。
Atariシミュレーターの決定論的な性質の影響を緩和するために、30のnoopランダムスタートと人間のスタートの2つの異なる評価戦略を採用した。
前者の場合、各エピソードの開始時に、エージェントに制御を渡す前に、ランダムに0〜30回のnoopアクションがシミュレーターに適用される。
後者の場合、開始位置は人間のエキスパートプレイからサンプリングされ、エージェントにコントロールを渡す前にAtariシミュレーターを初期化する。

図S1：AtariでのMuZeroの5ゲームの再現性

f:id:TadaoYamaoka:20191226083106p:plain

合計報酬はy軸に表示され、百万単位の訓練ステップがx軸に表示されている。
暗い線は10回の個別の訓練実行のスコアの中央値を示し、明るい線は個別の訓練実行を示し、影付きの領域は25〜75パーセンタイルを示す。

表S1：30のランダムなno-opスタートの個々のゲームのAtariでのMuZeroの評価

f:id:TadaoYamaoka:20191226084731p:plain

各ゲームの最高の結果は太字で強調されている。
各エピソードは、最大30分のゲーム時間（108kフレーム）に制限されている。
SimPLeは57ゲームのうち36ゲームでのみ評価され、利用できない結果は「-」で示されている。
人間の正規化スコアは次のように計算される。 $s_{normalized} = \frac{s_{agent} - s_{random}}{s_{human} - s_{random}}$

表S2：人間の開始位置からの個々のゲームのAtariでのMuZeroの評価

f:id:TadaoYamaoka:20191226085155p:plain

各ゲームの最高の結果は太字で強調されている。
各エピソードは、最大30分のゲーム時間（108kフレーム）に制限されている。

図S4：個々のゲームのAtariでのMuZeroの学習曲線

f:id:TadaoYamaoka:20191226085644p:plain

合計報酬はy軸に表示され、何百万単位の訓練ステップがx軸に表示されている。
線は1000回の評価ゲームの平均スコアを示し、影付きの領域は標準偏差を示す。

感想

付録Hは、本文で少し触れられていた、リプレイバッファを小さくして、サンプル効率を高めたバージョンの詳細について述べられています。

付録Iは、評価結果の詳細について記載されています。
ボードゲームでは、ベースラインプログラム（チェスではStockfish、将棋はelmo、囲碁はAlphaZero）との1手800シミュレーションで、思考時間をそろえた条件で測定されています。ハードウェアの条件は不明です。

Atariの評価は、図S1を見ると毎回ばらつきがあり、ゲームによっては、再現性が低いものもあるようです。
表S1の各ゲームの評価を見ると、montezuma revengeのスコアは0で、まったく攻略できないゲームも見られます。
従来アルゴリズムで攻略できなかったゲームで攻略できるようになったというより、平均的にスコアがアップしています。
SOTAは、57ゲーム中37で、Ape-Xの5、R2D2の13に比べて、MuZeroアルゴリズムでカバーできる範囲は広そうです。

*1:Whole-History Rating: A Bayesian Rating System for Players of Time-Varying Strength | SpringerLink

*2:https://science.sciencemag.org/content/362/6419/1140

*3:[1507.04296] Massively Parallel Methods for Deep Reinforcement Learning