結論
- 57のすべてのAtariゲームで、人間のベンチマークを超えるパフォーマンスを持つ最初の深層強化学習エージェントを紹介した。
- エージェントは、そのような多様なゲームセット(探索と活用、および長期的な信用割り当て)でパフォーマンスを発揮するために必要なさまざまなスキルの学習のバランスをとることができる。
- そのために、ハード探索ゲームで優れたパフォーマンスを発揮する既存のエージェントNever Give Upを単純に改善することを提案するが、それ自体は57のゲームすべてで全体的なパフォーマンスは強力ではない。
- これらの改善点は、i)状態行動価値関数の異なるパラメーター化を使用し、ii)メタコントローラーを使用して、新規性の優先度と割引を動的に調整し、iii)Retraceアルゴリズムの使用から学ぶために、長いbackprop-through timeウィンドウを使用することである。
- この方法は、大量の計算を活用して利点をもたらす。NGUと同様に、計算量の増加に応じて適切にスケーリングできる。
- これは、深層RLでの最近の多くの成果にも当てはまる(Silver et al., 2016; Andrychowicz et al., 2018; Vinyals et al., 2019)。
- これにより、私たちのメソッドで強力なパフォーマンスを実現できるが、興味深い研究の方向は、このエージェントのデータ効率を改善する方法を追求することである。
- さらに、このエージェントは、キャップされた人間の平均正規化スコアが100%であることを示している。
- しかし、私たちの見解では、これは、上記のような効率の面だけでなく、一般的なパフォーマンスの面でも、Atariの研究の終わりを意味するものではない。
- これについて2つのビューを提供する。
- 一つ目に、パーセンタイル間のパフォーマンスを分析すると、一般的なアルゴリズムがどのようであるかについての新しい洞察が得られる。
- Agent57は57ゲームの最初のパーセンタイルで優れた結果を達成し、NGUまたはR2D2よりも平均および中央値のパフォーマンスが優れているのと同時に、MuZeroが示すように、平均パフォーマンスもはるかに優れている。
- 二つ目に、Toromanoffらが指摘したように、現在のすべてのアルゴリズムは、一部のゲームで最適なパフォーマンスを達成するにはほど遠い。
- その目的のために使用する主な改善点は、Agent57とNGUが探索、(MuZeroによって達成された結果によって示唆される)計画、および(スキーで見られる結果によって強調される)信用割り当てのより良いメカニズムに使用する表現の強化かもしれません。
付録にネットワークアーキテクチャなどの詳細が記載されているので、付録も読んでいきます。
(続く)