Agent57: Outperforming the Atari Human Benchmarkを読むその５

状態行動価値関数のパラメーター化

まず、「ランダムコイン」と呼ばれるミニマリズムグリッドワールド環境に対する状態行動価値関数のパラメーター化の影響を評価する。
これは、サイズが15×15の空の部屋で構成され、各エピソードの開始時にコインとエージェントがランダムに配置される。
エージェントは4つの可能な行動（上、下、左、右）をとることができ、エピソードは最大200ステップである。
エージェントがコインをまたぐと、1の報酬を受け取り、エピソードは終了する。
図5に、状態行動価値関数の新しいパラメーター化がある場合とない場合のNGUの結果を示す。
1億5000万フレーム後のパフォーマンスを報告する。
活用的（ $\beta_j=0$ ）と最も探索的（ファミリーで最大の $\beta_j$ ）の方策の外部収益を比較する。
探索率の値が小さい場合（ $\max_j\beta_j$ ）でも、この設定は非常に異なる探索方策と活用方策を引き起こす。
割引された外部収益の最大化は、コインへの最短経路をとることによって達成され（外部収益を1にする）、拡張収益の最大化は、コインを回避して残りのすべての状態を訪問することによって達成される（外部収益はゼロになる）。
原則として、NGUはこれらの方策を共同で学習できる必要がある。
しかし、NGUの活用的方策は、内発的な動機報酬の規模が大きくなるにつれて、課題を解決するのに苦労していることが観察される。
内発的報酬の規模を大きくすると、その価値は外部の報酬よりもはるかに大きくなる。
結果として、NGUの条件付き状態行動価値ネットワークは、条件付けする $\beta_j$ に応じて非常に異なる値を表す必要がある。
これは、ネットワークがより柔軟な表現を持つことがますます要求されることを意味する。
個別のネットワークを使用すると、使用される内発的報酬の重みに対する堅牢性が劇的に向上する。
コインを集めた後、エピソードが終了しなかった場合、この効果は発生しないことに注意してほしい。
そのような場合、探索的方策と活用的方策は非常によく似たものにすることができる。
どちらも、できるだけ早くコインを収集することから始めることができる。
図4から、この改善は挑戦的なセットにもつながることがわかる。
NGUは、個別のネットワークに対応するものよりもはるかに低い平均CHNSを達成する。
メタコントローラーを組み込んでも、この現象が観察される。
Agent57は、個別のネットワーク改善が削除されると、20％を超えるパフォーマンスの低下を被る。

図5.内発的報酬の重み $\beta$ のさまざまな値に対する「ランダムコイン」の活用的（ $\beta_0=0$ 0）および最も探索的（ $\beta_{31}=\beta$ ）な外部収益。（上）NGU（下）内発的および外発的個別ネットワークを持つNGU。

f:id:TadaoYamaoka:20200414085827p:plain

また、これは一般的な改善であることがわかる。
挑戦的なセットの10ゲームのいずれにおいても、パフォーマンスが低下することはない。
より具体的には、Surroundの場合に最大の改善が見られる。NGUはランダムな方策と同等のスコアだが、新しいパラメーター化では、ほぼ最適なスコアに到達する。
これは、Surroundが上記の「ランダムコイン」環境に似たケースであるためである。
プレーヤーがゲームを進めるにつれて、対戦相手のヘビを取り囲み、報酬を受け取り、初期状態から開始するか、または対戦相手を捕まえることなく歩き回り、世界中の新しい状態を訪問するかを選択できる。

感想

言及されているSurroundというAtariゲームは、Youtubeで「Surround Atari」で検索すると動画が見つかります。
CodinGameのTRON BATTLEに近いゲームです。ただし、プレイヤーは2人のみです。
シンプルなゲームですが、先読みが探索がほとんど使えないので、実際アルゴリズムを作ろうとすると以外とてこずります。
従来の強化学習アルゴリズムでも、報酬が疎なゲームなため学習が難しいことが予想できます。
Agent57で、このようなゲームも攻略できるようになったのは、画期的なことだと思います。

(続く)