TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Atari57

Agent57: Outperforming the Atari Human Benchmarkを読むその９

Atari57 強化学習 Agent57

付録B B.外発的-内発的分解内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。ここで、は任意に初期化できる。ここで、別々の内発的…

Agent57: Outperforming the Atari Human Benchmarkを読むその８

強化学習 Atari57 Agent57

付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。付録A MDPの背景マルコフ決定プロセス（MDP）はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布（行動aを選択してxから状態yに遷移する確率を…