Agent57: Outperforming the Atari Human Benchmarkを読むその１５

Agent57

付録H. 実験結果 H.1. Atari 10：アブレーションのスコア表 H.2. Backpropウィンドウの長さの比較図12. 難易度の高い10ゲームのセットでの、Backpropウィンドウの長さが短い場合と長い場合のパフォーマンスの比較 H.3. アイデンティティとh変換の組み合わせ…

2020-05-25

Agent57: Outperforming the Atari Human Benchmarkを読むその１４

Agent57

付録G. ハイパーパラメータ G.1. との値セットの選択の間の直感は次のとおりです。については、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。については、活用方策（の値が小さい）には長期的な…

2020-05-22

Agent57: Outperforming the Atari Human Benchmarkを読むその１３

Agent57

付録F. ネットワークアーキテクチャ図9. Agent57のスケッチ図10. Agent57の詳細

2020-05-22

Agent57: Outperforming the Atari Human Benchmarkを読むその１２

Agent57

付録E. 分散設定の実装の詳細リプレイバッファー固定長の遷移のシーケンスと優先度を格納する。遷移はの形式である。このような遷移はタイムステップとも呼ばれ、シーケンスHの長さはトレース長と呼ばれる。さらに、リプレイバッファー内の隣接するシー…

2020-05-19

Agent57: Outperforming the Atari Human Benchmarkを読むその１１

Agent57

付録D. マルチアームバンディット形式この節では、マルチアームバンディット（MAB）パラダイム、上限信頼限界（UCB）アルゴリズム、およびスライディングウィンドウUCBアルゴリズムについて簡潔に説明する。より完全な説明と分析については、Garivier & Mo…

2020-05-18

Agent57: Outperforming the Atari Human Benchmarkを読むその１０

Agent57

付録C.リトレースおよび変換されたリトレースリトレースは、評価または制御のための方策オフのRLアルゴリズムである。評価設定の目標は、行動方策から引き出された軌跡からターゲット方策の状態行動価値関数を推定することである。制御設定では、を近似す…

2020-04-28

Agent57: Outperforming the Atari Human Benchmarkを読むその９

Atari57 強化学習 Agent57

付録B B.外発的-内発的分解内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。ここで、は任意に初期化できる。ここで、別々の内発的…

2020-04-22

Agent57: Outperforming the Atari Human Benchmarkを読むその８

強化学習 Atari57 Agent57

付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。付録A MDPの背景マルコフ決定プロセス（MDP）はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布（行動aを選択してxから状態yに遷移する確率を…

2020-04-17

Agent57: Outperforming the Atari Human Benchmarkを読むその７

強化学習 Agent57

結論 57のすべてのAtariゲームで、人間のベンチマークを超えるパフォーマンスを持つ最初の深層強化学習エージェントを紹介した。エージェントは、そのような多様なゲームセット（探索と活用、および長期的な信用割り当て）でパフォーマンスを発揮するために…

2020-04-15

Agent57: Outperforming the Atari Human Benchmarkを読むその６

強化学習 Agent57

Backprop Through Timeのウィンドウサイズこの節では、backprop through timeのウィンドウサイズを使用することの影響を分析する。より具体的には、NGUまたは提案する改善を行わないことでその効果を確認するために、基本アルゴリズムR2D2への影響を分析す…

2020-04-14

Agent57: Outperforming the Atari Human Benchmarkを読むその５

強化学習 Agent57

状態行動価値関数のパラメーター化まず、「ランダムコイン」と呼ばれるミニマリズムグリッドワールド環境に対する状態行動価値関数のパラメーター化の影響を評価する。これは、サイズが15×15の空の部屋で構成され、各エピソードの開始時にコインとエージェ…

2020-04-13

Agent57: Outperforming the Atari Human Benchmarkを読むその４

強化学習 Agent57

実験この章では、まず実験のセットアップについて説明する。 NGUに続いて、Agent57はサイズN = 32の係数のファミリーを使用する。割引の選択はNGUのそれとは異なり、0.99から0.9999の範囲のより高い値を可能にする（詳細については付録G.1を参照）。メタ…

2020-04-07

Agent57: Outperforming the Atari Human Benchmarkを読むその３

強化学習 Agent57

NGUの改善状態行動価値関数のパラメーター化提案されているアーキテクチャの改善は、次のように状態行動価値関数を分割することである。ここで、とは、それぞれの外部コンポーネントと組み込みコンポーネントである。重みのセットとは、同一のアーキテク…

2020-04-01

Agent57: Outperforming the Atari Human Benchmarkを読むその２

強化学習 Agent57

背景：Never Give Up（NGU） NGU上に構築する2つのアイディア私たちの研究は、2つのアイデアを組み合わせたNGUエージェントの上に構築される。 1つは、好奇心主導型の探索、2つ目は、分散型の深層RLエージェント、特にR2D2である。 NGUの報酬 NGUは、探索を…

2020-04-01

Agent57: Outperforming the Atari Human Benchmarkを読む

強化学習 Agent57

DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦…

TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Agent57

Agent57: Outperforming the Atari Human Benchmarkを読むその１５

Agent57: Outperforming the Atari Human Benchmarkを読むその１４

Agent57: Outperforming the Atari Human Benchmarkを読むその１３

Agent57: Outperforming the Atari Human Benchmarkを読むその１２

Agent57: Outperforming the Atari Human Benchmarkを読むその１１

Agent57: Outperforming the Atari Human Benchmarkを読むその１０

Agent57: Outperforming the Atari Human Benchmarkを読むその９

Agent57: Outperforming the Atari Human Benchmarkを読むその８

Agent57: Outperforming the Atari Human Benchmarkを読むその７

Agent57: Outperforming the Atari Human Benchmarkを読むその６

Agent57: Outperforming the Atari Human Benchmarkを読むその５

Agent57: Outperforming the Atari Human Benchmarkを読むその４

Agent57: Outperforming the Atari Human Benchmarkを読むその３

Agent57: Outperforming the Atari Human Benchmarkを読むその２

Agent57: Outperforming the Atari Human Benchmarkを読む