TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

2020-04-01から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読む その2

背景:Never Give Up(NGU) NGU上に構築する2つのアイディア 私たちの研究は、2つのアイデアを組み合わせたNGUエージェントの上に構築される。 1つは、好奇心主導型の探索、2つ目は、分散型の深層RLエージェント、特にR2D2である。 NGUの報酬 NGUは、探索を…

Agent57: Outperforming the Atari Human Benchmarkを読む

DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。 モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦…