2020-04-22から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読むその８

強化学習 Atari57 Agent57

付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。付録A MDPの背景マルコフ決定プロセス（MDP）はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布（行動aを選択してxから状態yに遷移する確率を…