TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Agent57: Outperforming the Atari Human Benchmarkを読む その6

Backprop Through Timeのウィンドウサイズ

  • この節では、backprop through timeのウィンドウサイズを使用することの影響を分析する。
  • より具体的には、NGUまたは提案する改善を行わないことでその効果を確認するために、基本アルゴリズムR2D2への影響を分析する。
  • さらに、Agent57への影響も分析し、NGUの改善点がこの変更と重複していないか確認する。
  • どちらの場合も、backprop through timeのウィンドウサイズが80(R2D2のデフォルト)と160の場合のbackpropの使用を比較する。


  • 挑戦的なセットの総計では、その効果はR2D2とAgent57の両方で同じであるように見える。
  • backprop through timeの長いウィンドウを使用すると、最初は遅くなりますが、全体的な安定性は向上し、最終スコアはわずかに高くなる。
  • これらの10ゲームの詳細な比較は、付録H.2に示す。
  • この効果は、図6で確認できるように、Solarisのゲームではっきりと見ることができる。
  • これも、最終スコアの点で最大の改善を示しているゲームである。
  • これもまた、すべての挑戦的なセットゲームのパフォーマンスを向上させるため、一般的な改善である。
  • 詳細については、付録H.1でスコアを報告する。
図6. R2D2とAgent57の両方の小さいおよび長いbackprop through timeウィンドウサイズを使用したSolarisの学習曲線

f:id:TadaoYamaoka:20200415090309p:plain

付録H.1. Atari 10:アブレーションのスコア表

f:id:TadaoYamaoka:20200415090533p:plain

付録H.2. Backpropウィンドウの長さの比較

f:id:TadaoYamaoka:20200415090700p:plain
図12. 10ゲームの挑戦的なセットでの、backpropウィンドウの長さが短い場合と長い場合のパフォーマンスの比較

適応探索

  • この節では、アクターと評価者の両方で、3.1節で説明されているメタコントローラーを使用する効果を分析する。
  • この改善の寄与を分離するために、2つの設定を評価する。R2D2とNGUは、メタコントローラーの有無にかかわらず、個別のネットワークで使用する。
  • 結果を図7に示す。
  • ここでも、これは両方の比較で一般的な改善であることがわかる。
  • まず、この改善自体には大きな価値があり、R2D2の最終的なパフォーマンスがCHNSが20%近く向上することがわかる。
  • 次に、別のネットワークを使用するNGUの利点は、R2D2の場合よりも控えめであることがわかる。
  • これは、個別のネットワークのパラメーター化とメタコントローラーの使用の寄与がわずかに重複していることを示している。
  • バンディットアルゴリズムは、固有の報酬と外部の報酬のスケールの差が大きい場合に、\betaの値を適応的に減少させることができる。
  • メタコントローラーを使用すると、非常に高い割引値をセット\{\gamma_j\}_{j=0}^Nに含めることができる。
  • 具体的には、高い割引率でR2D2を実行すると、\gamma=0.9999はスキーのゲームにおける人間のベースラインを上回る。
  • ただし、ゲームのすべてのセットでそのハイパーパラメータを使用すると、アルゴリズムが非常に不安定になり、最終的なパフォーマンスが低下する。
  • R2D2の固定の高割引(\gamma=0.9999)バリアントの挑戦的なセットのすべてのスコアは、付録H.1で報告される。
  • メタコントローラーを使用する場合、アルゴリズムはこの妥協をする必要はない。タスクごとに適応させることができる。
図7. 10ゲームの挑戦的なセットでの適応探索のパフォーマンス比較

f:id:TadaoYamaoka:20200415093225p:plain

  • 最後に、上記の結果と考察は、タスクごとに異なる値の\beta\gammaを使用することが有益である理由を示している。
  • 同時に、3章では、訓練中にこれらの係数を変化させることも有用であると仮定している。
  • 図8では、(\beta_j, \gamma_j)の選択により、いくつかのゲームの訓練全体で、評価者のメタコントローラーに最高の収益を生み出している。
  • 一部のゲームには明らかに優先モードがある。スキーでは、エージェントが学習を開始すると、高割引の組み合わせがすぐにピックアップされる。ヒーローでは、通常、常に高い\betaと低い\gammaが優先される。
  • 一方、一部のゲームでは、訓練全体で異なる優先モードがある。Gravitar、Crazy Climber、Beam Rider、Jamesbondでは、Agent57は最初、割引率の低い探索的方策に焦点を当てることを選択し、訓練が進むにつれて、エージェントは割引率が高く、より活用的な方策から経験を生み出すようにシフトする。
図8.さまざまなゲームの訓練に関してAgent57の評価者が選択した最良の腕

f:id:TadaoYamaoka:20200415094011p:plain

(続く)