付録H. 実験結果
H.1. Atari 10:アブレーションのスコア表
H.2. Backpropウィンドウの長さの比較
図12. 難易度の高い10ゲームのセットでの、Backpropウィンドウの長さが短い場合と長い場合のパフォーマンスの比較
H.3. アイデンティティとh変換の組み合わせの比較
図13. 挑戦的な10ゲームのセットでのアイデンティティとh変換ミックスのパフォーマンス比較
- 図H.3に示すように、アイデンティティまたはh変換ミックスを選択しても、パフォーマンスの点で違いはないようである。
- 唯一重要なことは、外発的と内発的の組み合わせが線形かどうかに関係なく発生することである。
- さらに、βの極値(, )の場合、量とは同じになることに注意してほしい。 これは、が厳密に増加しているためである。
- したがって、これは、βの極値で、変換と通常の値の反復スキームが同じ方策に向かって収束することを意味する。
- βの値の間では、これは当てはまらない。
- しかし、変換演算子とアイデンティティミックスが使用される場合、価値反復スキームは、内発的報酬と外発的報酬の非線形の組み合わせに関してそれぞれ最適な状態行動価値関数を近似すると推測できる。
H.4. Atari 57のスコア表
H.5. Atari 57の学習曲線
図14. Atari57でのAgent57の学習曲線
H.6. ビデオ
- https://sites.google.com/corp/view/agent57にいくつかの動画を掲載している。
- 以下を示している。
- 57のすべてのゲームでのAgent57:Agent57が人間のベースラインを超えるAtari 57スイープの各ゲームのサンプルビデオを提供する。
- 状態行動価値関数のパラメーター化:価値関数のパラメーター化の重要性を示すために、アイスホッケーとサラウンドの2つのゲームのビデオを示す。 NGUとAgent57の両方の活用的および探索的方策のビデオを示す。 アイスホッケーでは、探索的および活用的な方策は非常に異なるスコアを達成している。 具体的には、探索的な方策はゴールを目指すのではなく、新しい構成を探索しながらコートの周りを移動することを好む。 一方、単一のアーキテクチャのNGUは両方の方策を同時に学習することはできないが、Agent57は非常に多様なパフォーマンスを示す。 サラウンドの場合NGUはまたしても学ぶことができない。 探索的方策は、観察の多様性を新たに増大させるために、新たに開始するためにポイントを失うことを選択したと推測する。 Agent57はこの問題を克服でき、活用的方策と探索的方策の両方で、人間のベースラインを超えるスコアを取得できる。
- 適応的割引率:ゲームJames BondのR2D2(bandit)とR2D2(retrace)のビデオ例を示す。 R2D2(retrace)は、30,000ポイント程度の最終スコアでゲームをクリアすることを学ぶ。 対照的に、R2D2(bandit)は、ゲームの終了を遅らせて、スコアが約140,000ポイントで、大幅に多くの報酬を集めることを学ぶ。 これを実現するために、メタコントローラーの適応メカニズムは、非常に高い割引率を持つ方策を選択する。
- Backprop Through Timeのウィンドウサイズ:SolarisのゲームでのNGUおよびAgent57のエピソードの例を示すビデオを提供する。 ハイスコアを達成するために、エージェントはグリッド画面内を移動して敵を探すことを学ぶ必要がある。 エージェントはグリッド画面で実行されたアクションを後で多くのタイムステップで達成された報酬にバインドする必要があるため、これは長期的なクレジット割り当ての問題である。