TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

Agent57

Agent57: Outperforming the Atari Human Benchmarkを読む その15

付録H. 実験結果 H.1. Atari 10:アブレーションのスコア表 H.2. Backpropウィンドウの長さの比較 図12. 難易度の高い10ゲームのセットでの、Backpropウィンドウの長さが短い場合と長い場合のパフォーマンスの比較 H.3. アイデンティティとh変換の組み合わせ…

Agent57: Outperforming the Atari Human Benchmarkを読む その14

付録G. ハイパーパラメータ G.1. との値 セットの選択の間の直感は次のとおりです。 については、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。 については、活用方策(の値が小さい)には長期的な…

Agent57: Outperforming the Atari Human Benchmarkを読む その13

付録F. ネットワークアーキテクチャ 図9. Agent57のスケッチ 図10. Agent57の詳細

Agent57: Outperforming the Atari Human Benchmarkを読む その12

付録E. 分散設定の実装の詳細 リプレイバッファー 固定長の遷移のシーケンスと優先度を格納する。 遷移はの形式である。 このような遷移はタイムステップとも呼ばれ、シーケンスHの長さはトレース長と呼ばれる。 さらに、リプレイバッファー内の隣接するシー…

Agent57: Outperforming the Atari Human Benchmarkを読む その11

付録D. マルチアームバンディット形式 この節では、マルチアームバンディット(MAB)パラダイム、上限信頼限界(UCB)アルゴリズム、およびスライディングウィンドウUCBアルゴリズムについて簡潔に説明する。 より完全な説明と分析については、Garivier & Mo…

Agent57: Outperforming the Atari Human Benchmarkを読む その10

付録C.リトレースおよび変換されたリトレース リトレースは、評価または制御のための方策オフのRLアルゴリズムである。 評価設定の目標は、行動方策から引き出された軌跡からターゲット方策の状態行動価値関数を推定することである。 制御設定では、を近似す…

Agent57: Outperforming the Atari Human Benchmarkを読む その9

付録B B.外発的-内発的分解 内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。 価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。 ここで、は任意に初期化できる。 ここで、別々の内発的…

Agent57: Outperforming the Atari Human Benchmarkを読む その8

付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。 付録A MDPの背景 マルコフ決定プロセス(MDP)はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布(行動aを選択してxから状態yに遷移する確率を…

Agent57: Outperforming the Atari Human Benchmarkを読む その7

結論 57のすべてのAtariゲームで、人間のベンチマークを超えるパフォーマンスを持つ最初の深層強化学習エージェントを紹介した。 エージェントは、そのような多様なゲームセット(探索と活用、および長期的な信用割り当て)でパフォーマンスを発揮するために…

Agent57: Outperforming the Atari Human Benchmarkを読む その6

Backprop Through Timeのウィンドウサイズ この節では、backprop through timeのウィンドウサイズを使用することの影響を分析する。 より具体的には、NGUまたは提案する改善を行わないことでその効果を確認するために、基本アルゴリズムR2D2への影響を分析す…

Agent57: Outperforming the Atari Human Benchmarkを読む その5

状態行動価値関数のパラメーター化 まず、「ランダムコイン」と呼ばれるミニマリズムグリッドワールド環境に対する状態行動価値関数のパラメーター化の影響を評価する。 これは、サイズが15×15の空の部屋で構成され、各エピソードの開始時にコインとエージェ…

Agent57: Outperforming the Atari Human Benchmarkを読む その4

実験 この章では、まず実験のセットアップについて説明する。 NGUに続いて、Agent57はサイズN = 32の係数のファミリーを使用する。 割引の選択はNGUのそれとは異なり、0.99から0.9999の範囲のより高い値を可能にする(詳細については付録G.1を参照)。 メタ…

Agent57: Outperforming the Atari Human Benchmarkを読む その3

NGUの改善 状態行動価値関数のパラメーター化 提案されているアーキテクチャの改善は、次のように状態行動価値関数を分割することである。 ここで、とは、それぞれの外部コンポーネントと組み込みコンポーネントである。 重みのセットとは、同一のアーキテク…

Agent57: Outperforming the Atari Human Benchmarkを読む その2

背景:Never Give Up(NGU) NGU上に構築する2つのアイディア 私たちの研究は、2つのアイデアを組み合わせたNGUエージェントの上に構築される。 1つは、好奇心主導型の探索、2つ目は、分散型の深層RLエージェント、特にR2D2である。 NGUの報酬 NGUは、探索を…

Agent57: Outperforming the Atari Human Benchmarkを読む

DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。 モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦…