背景:Never Give Up(NGU) NGU上に構築する2つのアイディア 私たちの研究は、2つのアイデアを組み合わせたNGUエージェントの上に構築される。 1つは、好奇心主導型の探索、2つ目は、分散型の深層RLエージェント、特にR2D2である。 NGUの報酬 NGUは、探索を…
DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。 モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。