Agent57: Outperforming the Atari Human Benchmarkを読むその４

実験

この章では、まず実験のセットアップについて説明する。

NGUに続いて、Agent57はサイズN = 32の係数 $\{(\beta_j,\gamma_j)\}_{j=0}^{N-1}$ のファミリーを使用する。
割引 $\{\gamma_j\}_{j=0}^{N-1}$ の選択はNGUのそれとは異なり、0.99から0.9999の範囲のより高い値を可能にする（詳細については付録G.1を参照）。
メタコントローラーは、アクターにτ= 160エピソードとε= 0.5のウィンドウサイズを使用し、τ= 3600エピソードとε= 0.01のウィンドウサイズを使用する。
その他のハイパーパラメータはすべて、Atariフレームの標準的な前処理を含め、NGUのハイパーパラメータと同じである。
使用するハイパーパラメータと前処理の詳細については、付録G.3を参照してほしい。
私たちが実行するすべてのエージェント（つまり、Schrittwieserら(2019)で提示された数値を報告するMuZeroを除くすべてのエージェント）では、スコアを継続的に記録するために別の評価プロセスを採用している。
割引されていないエピソードリターンを3つのシードで平均し、50エピソードでウィンドウ平均を使用して記録する。
最良のアルゴリズムであるAgent57については、結果の重要性を強化するために、すべてのゲームで6つのシードを平均した結果を報告する。
その平均では、Fortunatoら(2017)やPuigdomènech Badiaら(2020)で行われたように、訓練の最大値を最終スコアとして報告する。
評価セットアップの詳細については、付録Eで説明している。

人間の正規化スコア $\text{HNS}=\frac{\text{Agent}_{\text{score}}-\text{Random}_{\text{score}}}{\text{Human}_{\text{score}}-\text{Random}_{\text{score}}}$ の使用に加えて、キャップされた人間の正規化されたスコア $\text{CHNS} = \max\{\min\{\text{HNS}, 1\}, 0\}$ を報告する。
この指標は、平均的な人間のパフォーマンスのベンチマークを下回っているゲームに重点を置いているため、一般的なパフォーマンスを評価するためのより良い記述子である。
さらに、集計されたメトリックが持つ可能性のある問題を回避するために、付録H.1で評価するすべてのゲームですべてのアブレーションが取得するすべてのスコアも提供する。

この章の残りの部分は次のように構成する。
最初に、Agent57が達成した結果の概要を示す。
次に、モデルに提案する改善のそれぞれに対してアブレーションを行う。

結果のまとめ

表1. 57のAtariゲームの人間を超えるゲームの数、キャップの平均、人間の正規化スコアの平均および中央値

f:id:TadaoYamaoka:20200410092303p:plain

表1は、ベースラインと比較した57のすべてのAtariゲームで得られた結果の概要を示している。
MuZeroは、最高の上限なし平均と中央値の人間の正規化スコアを取得しているが、最低限の上限付きスコアも取得する。
これは、MuZeroがビームライダーなど、27469％の上限なしのスコアを示すいくつかのゲームで非常に優れたパフォーマンスを発揮すると同時に、ベンチャーなどのゲームで破滅的に失敗し、ランダムなポリシーと同等である。
提案されたバリアントR2D2(bandit)は、同じRetrace損失を持つR2D2よりもはるかに高い平均値、中央値、およびCHNSを示しており、メタコントローラの改善がR2D2にうまく移行することがわかる。
最後に、Agent57は中央値を達成し、これはNGUおよびR2D2よりも大きいが、そのCHNSも100％である。
これは、Agent57の一般性を示している。
強い平均値と中央値を取得するだけでなく、MuZeroとR2D2が致命的に失敗するゲームのテールで強力なパフォーマンスを取得できる。
これは、異なるパーセンタイルを見るとより明確に観察される。
20パーセンタイルまで、Agent57ははるかに優れたパフォーマンスを示し、高いパーセンタイルを調べるとR2D2(bandit)をわずかに超えている。
図3では、57のゲームのAgent57のパフォーマンスを個別に報告している。
アルゴリズムが人間のパフォーマンスベンチマークを上回っている（エージェントによって収集されたフレーム数の観点から）最後の6ゲームを示す。
示されているように、ゲームのベンチマークは長期にわたって打ち負かされており、Agent57は最初の50億フレームを使用して、51ゲームの人間のベンチマークを超えている。
その後、Montezuma’s Revenge、Pitfall！、Private Eyeなどのハード探索ゲームを見つける。
最後に、Agent57は78億フレームでスキーの人間のベンチマークを超えている。
スキーでそのようなパフォーマンスを達成できるようにするために、Agent57は（4.4節に示すように）高割引を使用する。
これは当然のことながら、収益に大きな変動をもたらし、ゲームのプレイを学ぶために、より多くのデータが必要になる。
スキーのゲームでは、人間のベースラインは非常に競争力があり、スコアは-4336.9であり、-17098.1はランダムで、-3272は達成可能な最適スコアである。

図3.キャップされた人間の正規化されたスコア。ここで、最後の6ゲームでエージェントが人間のベンチマークを上回った時点を観察する。

f:id:TadaoYamaoka:20200410093519p:plain

一般に、Atariのパフォーマンスは向上し続けているため、分布のテールに集中することは自然なようである。
つまり、ヒストリカルな進行が平均よりもはるかに遅いゲームに注意を払う。
これで、チャレンジングセットと呼ばれる10ゲームのサブセットの結果が表示される。
それらは（Bellemareら, 2016）で定義されている6つのハード探索ゲームと、長期の信用割り当てを必要とするゲームで構成されている。
より具体的には、使用するゲームは、Beam Rider, Freeway, Montezuma’s Revenge, Pitfall!, Pong, Private Eye, Skiing, Solaris, Surround, およびVentureである。