Agent57: Outperforming the Atari Human Benchmarkを読む

DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。

Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。
モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦手としていましたが、長期的な信用割り当てをコントロールすることで克服できたようです。

概要

Atariゲームは、過去10年間、強化学習（RL）コミュニティで長年のベンチマークとなっている。
このベンチマークは、RLアルゴリズムの一般的な能力をテストするために提案された。
以前の研究は、ゲームのセットの多くで非常によく機能することにより、優れた平均パフォーマンスを達成したが、最も挑戦的なゲームのいくつかでは非常に貧弱だった。
57のすべてのAtariゲームで標準の人間のベンチマークよりも優れた最初の深層RLエージェントであるAgent57を提案する。
この結果を達成するために、非常に探索的なものから純粋に活用的なものまでの一連の方策をパラメーター化するニューラルネットワークを訓練する。
訓練プロセス全体で優先するポリシーを選択するための適応メカニズムを提案します。さらに、アーキテクチャの新しいパラメータ化を利用して、より一貫した安定した学習を可能にします。

導入

アーケード学習環境(ALE)

アーケード学習環境(ALE)は、幅広いゲームで一般的な能力を発揮するように設計されたエージェントを経験的に評価するためのプラットフォームとして提案された。
ALEは、人間のプレイヤーにとって魅力的でやりがいのあるように設計された多様なAtari 2600ゲーム環境へのインターフェースを提供する。
Bellemareらが述べたように、Atari 2600ゲームは、3つの主な理由でAIエージェントの一般的な能力を評価するのに非常に適している。

（i）一般性を主張するのに十分な多様性
（ii）それぞれが実際に直面する可能性のある設定を代表するのに十分興味深い
（iii）実験者の偏見のないように独立した者によってそれぞれ作成された

一般的なRLアルゴリズムの課題

エージェントは、ゲーム固有の情報を使用せずに、手元のドメインについて最小限の仮定をしながら、できるだけ多くのゲームでうまく機能することが期待されている。
Deep Q-Networksは、多数のAtari 2600ゲームで人間レベルの制御を実現する最初のアルゴリズムであり、人間の正規化スコア（HNS）で測定された。
その後、HNSを使用してAtariゲームのパフォーマンスを評価することは、人間のベースラインスコアが人間のパフォーマンスを潜在的に過小評価しているにもかかわらず、深層強化学習（RL）で最も広く使用されているベンチマークの1つになった。
それにもかかわらず、人間のベンチマークパフォーマンスは、57のアタリゲーム全体で「合理的なパフォーマンス」のオラクル(神託)のままである。
あらゆる努力にもかかわらず、単一のRLアルゴリズムでは、1組のハイパーパラメーターで57のすべてのAtariゲームで100％を超えるHNSを達成できなかった。
実際、モデルベースのRLであるMuZero、およびモデルフリーRLにおける最新のアルゴリズムであるR2D2では、100％HNSを上回るのはそれぞれ51、52ゲームである。
これらのアルゴリズムは、ゲームの大部分で人間レベルの平均をはるかに超えるパフォーマンスを達成するが（たとえば、HNSが1000％を超えるなど）、達成できないゲームでは、完全に学習できないことがよくある。
これらのゲームは、一般的なRLアルゴリズムで対処できるはずの特に重要な問題を示している。
第一は、長期的な信用割り当て：その後のポジティブな（またはネガティブな）結果に対して、どの決定が最も信用に値するか？
この問題は、報酬が遅れて、スキーやソラリスのゲームなど、一連の長い行動で信用を割り当てる必要がある場合に特に困難である。
スキーのゲームは、その独特の報酬構造により、標準的な例である。
ゲームの目標は、すべてのゲートをできるだけ速く下り坂で走ることである。逃したゲートごとに5秒のペナルティが与えられる。最後にのみ与えられる報酬は、経過時間に比例する。
したがって、ゲームの早い段階で行われた行動（ゲートを逃すなど）が獲得した報酬にマイナスの影響を与える理由を理解するには、長期的な信用割り当てが必要である。
第二に、探索：RLで効果的に学習するには、効率的な探索が不可欠である。
Private Eye, Montezuma’s Revenge, Pitfall!またはVentureなどのゲームは、最初のポジティブな報酬が表示される前に何百もの行動が必要になる可能性があるため、困難な探索ゲームとして広く考えられている。
成功するためには、エージェントはポジティブな報酬を見つけることは明らかに不可能であるにもかかわらず、環境を探索し続ける必要がある。
これらの問題は、関数の近似が必要な大規模な高次元状態空間で特に困難である。

NGUの改善の提案

深層RLの探索アルゴリズムは、一般に3つのカテゴリに分類される。
ランダム化された価値関数、教師なしの方策学習、内発的動機付けである。
その他の研究では、手作りの特徴量、ドメイン固有の知識、または恵まれた事前トレーニングを組み合わせて、探索問題を回避し、場合によってはいくつかのAtariゲームでのみ評価される。
有望な結果にもかかわらず、人間のデモンストレーションに依存することなく、残りのゲームのパフォーマンスを低下させることなく、挑戦的なゲームのパフォーマンスを大幅に改善できるアルゴリズムはない。
特に、このすべての研究の中で、内発的動機付け、特にNever Give Up（NGU）は、困難な探索ゲームのパフォーマンスを向上させる上で重要な最近の明るい見通しを示している。
NGUは、2つのレベル(エピソード内の短期的な新規性およびエピソード全体の長期的な新規性)で新規性に敏感な内部で生成された固有の報酬で報酬信号を増強することにより、これを実現する。
次に、探索と活用（同じパラメーターを共有）のための一連の方策を学習する。
最終的な目標は、活用方策の下で最高のスコアを取得することである。
ただし、NGUは最も一般的なエージェントではない。
R2D2やMuZeroはほとんどすべてのゲームで強力に実行できるが、NGUはMuZeroやR2D2などのエージェントとは異なり、小さなゲームセットしか強力に機能しないという欠点がある（R2D2に基づいているにもかかわらず）。
たとえば、Surroundゲームでは、R2D2が最適なスコアを達成し、NGUはランダムポリシーと同程度にしか機能しない。
NGUの欠点の1つは、学習の進歩への貢献に関係なく、各方策に従って同じ量の経験を収集することである。
一部のゲームでは、他と大きく異なる量の探索が必要である。
直感的には、最終的なパフォーマンスが最大化されるように、共有リソース（ネットワーク容量とデータ収集の両方）を割り当てることができる。
NGUがエージェントの存続期間中に探索戦略を適応できるようにして、学習している特定のゲームに特化できるようにすることを提案する。
これは、NGUをより一般的なエージェントにするためにNGUに行った最初の重要な改善である。

長期的な信用割り当てに関する最近の研究

長期的な信用割り当てに関する最近の研究は、大きく2つのタイプに分類できる。
勾配が正しく信用を割り当てることを確認することと、価値または目標を使用して正しい信用が割り当てられるようにすることである。
NGUは、100％HNSに到達できないスキーやSolarisなどのような長期的な信用割り当ての問題にも対処できない。
モデルを通る勾配の流れが学習を指示する一方で、価値と報酬が損失を形成するため、RLでの信用割り当ての進展には、多くの場合、両方のアプローチが混在している。

提案手法

この研究では、全体的な訓練の安定性を改善し、割引率を動的に調整し、backprop through time windowを増やすことにより、長期的な信用割り当て問題に取り組むことを提案する。
これらは、以前の研究で提案されたアプローチと比較して比較的単純な変更ですが、効果的であることがわかる。
最近の多くの研究で、深層RLエージェントのハイパーパラメータを動的に調整する方法、たとえば、進化、勾配、多腕バンディットに基づくアプローチなど、この問題が調査されている。
Schaulらに触発されて、単純な非定常多腕バンディットを使用して、探索率と割引率を直接制御し、エピソードの収益を最大化して、この情報をエージェントの価値ネットワークに入力として提供することを提案する。
Schaulらとは異なり、1）探査率と割引係数を制御し（長期的な信用割り当てを支援）、2）バンディットは、固定された関数形式で共通の価値関数を直線的に傾けるのではなく、探索とより長い割引の効果をバックアップする一連の状態行動価値関数を制御する。

要約

要約すると、私たちの貢献は次のとおり。

内因性の報酬と外部の報酬の寄与を分解する状態行動価値関数の新しいパラメーター化。結果として、内因性の報酬スケールの広い範囲で訓練の安定性が大幅に向上する。
メタコントローラー：訓練プロセス全体で優先順位を付ける方策（探索率と割引係数でパラメーター化）を選択する適応メカニズム。これにより、エージェントは、より多くのリソースをどちらか一方に割り当てることで、探索/活用のトレードオフを制御できる。
最後に、すべてのAtari 57ゲームで初めて人間のベースラインを超えるパフォーマンスを示す。これらの実験の一部として、R2D2より以前に公開されたウィンドウの2倍になるようにbackprop through time windowを再調整するだけで、残りのゲームの全体的なパフォーマンスを維持または改善しながら、（Solarisなどで）優れた長期の信用割り当てにつながることもわかった。