TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

MuZeroの論文を読む その10(再分析、評価)

今回で、最後です。

付録H 再分析

  • MuZeroのサンプル効率を改善するために、MuZero Reanalyzeという、わずかに異なるアルゴリズムを導入した。
  • MuZero Reanalyzeは過去のタイムステップを再検討し、最新のモデルパラメーターを使用して探索を再実行するため、元の探索よりも方策の品質が向上する可能性がある。
  • この新しい方策は、MuZero訓練中の更新の80%の方策目標として使用される。
  • さらに、最近のパラメータ\theta^-に基づくターゲットネットワーク\cdot, v^- = f_{\theta^-}(s^0)を使用して、価値関数のよる新鮮で安定したnステップブートストラップターゲットz_t = u_{t+1} + \gamma u_{t+2} + ... + \gamma^{n-1} u_{t+n} + \gamma^n v^-_{t+n}を提供する。
  • さらに、他のいくつかのハイパーパラメータが調整された。 主にサンプルの再利用を増やし、価値関数の過剰適合を回避するためである。
  • 具体的には、状態ごとに0.1ではなく2.0サンプルが取り出された。 価値目標は、方策および報酬目標の1.0の重みと比較して0.25まで重みが下げられた。 また、nステップ収益は、n = 10ステップではなく、n = 5ステップに削減された。

f:id:TadaoYamaoka:20191225084442p:plain

付録I 評価

  • 各プレイヤーのEloレーティングを測定することにより、ボードゲームでのMuZero(図2)の相対的な強さを評価した。

f:id:TadaoYamaoka:20191125231748p:plain

  • ロジスティック関数p(a \text{ defeats } b) = (1 + 10^{(c_{\mathrm{elo}} (e(b) - e(a)))})^{-1}によってプレーヤーaがプレーヤーbを破る確率を推定し、標準定数c_{\mathrm{elo}} = 1/400を使用してBayesEloプログラム*1によって計算されたベイジアンロジスティック回帰により評価e(\cdot)を推定する。

Eloの評価

  • Eloの評価は、訓練中のMuZeroの反復と、ベースラインプレーヤー(Stockfish、Elmo、またはAlphaZeroのいずれか)との間の1手あたり800シミュレーションのトーナメントの結果から計算された。
  • ベースラインプレーヤーは、1手あたり100ミリ秒の同等の探索時間を使用した。
  • ベースラインプレーヤーのEloレーティングは、公開されている値*2に固定されている。

Atariの評価

  • Atariでは、特に指定のない限り、1移動あたり50シミュレーションを使用して、標準の30分またはエピソードあたり108,000フレーム*3に制限された、ゲームあたり1000エピソード以上の平均報酬を計算した。
  • Atariシミュレーターの決定論的な性質の影響を緩和するために、30のnoopランダムスタートと人間のスタートの2つの異なる評価戦略を採用した。
  • 前者の場合、各エピソードの開始時に、エージェントに制御を渡す前に、ランダムに0〜30回のnoopアクションがシミュレーターに適用される。
  • 後者の場合、開始位置は人間のエキスパートプレイからサンプリングされ、エージェントにコントロールを渡す前にAtariシミュレーターを初期化する。
図S1:AtariでのMuZeroの5ゲームの再現性

f:id:TadaoYamaoka:20191226083106p:plain

  • 合計報酬はy軸に表示され、百万単位の訓練ステップがx軸に表示されている。
  • 暗い線は10回の個別の訓練実行のスコアの中央値を示し、明るい線は個別の訓練実行を示し、影付きの領域は25〜75パーセンタイルを示す。
表S1:30のランダムなno-opスタートの個々のゲームのAtariでのMuZeroの評価

f:id:TadaoYamaoka:20191226084731p:plain

  • 各ゲームの最高の結果は太字で強調されている。
  • 各エピソードは、最大30分のゲーム時間(108kフレーム)に制限されている。
  • SimPLeは57ゲームのうち36ゲームでのみ評価され、利用できない結果は「-」で示されている。
  • 人間の正規化スコアは次のように計算される。s_{normalized} = \frac{s_{agent} - s_{random}}{s_{human} - s_{random}}
表S2:人間の開始位置からの個々のゲームのAtariでのMuZeroの評価

f:id:TadaoYamaoka:20191226085155p:plain

  • 各ゲームの最高の結果は太字で強調されている。
  • 各エピソードは、最大30分のゲーム時間(108kフレーム)に制限されている。
図S4:個々のゲームのAtariでのMuZeroの学習曲線

f:id:TadaoYamaoka:20191226085644p:plain

  • 合計報酬はy軸に表示され、何百万単位の訓練ステップがx軸に表示されている。
  • 線は1000回の評価ゲームの平均スコアを示し、影付きの領域は標準偏差を示す。
感想

付録Hは、本文で少し触れられていた、リプレイバッファを小さくして、サンプル効率を高めたバージョンの詳細について述べられています。

付録Iは、評価結果の詳細について記載されています。
ボードゲームでは、ベースラインプログラム(チェスではStockfish、将棋はelmo、囲碁はAlphaZero)との1手800シミュレーションで、思考時間をそろえた条件で測定されています。ハードウェアの条件は不明です。

Atariの評価は、図S1を見ると毎回ばらつきがあり、ゲームによっては、再現性が低いものもあるようです。
表S1の各ゲームの評価を見ると、montezuma revengeのスコアは0で、まったく攻略できないゲームも見られます。
従来アルゴリズムで攻略できなかったゲームで攻略できるようになったというより、平均的にスコアがアップしています。
SOTAは、57ゲーム中37で、Ape-Xの5、R2D2の13に比べて、MuZeroアルゴリズムでカバーできる範囲は広そうです。