付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。 付録A MDPの背景 マルコフ決定プロセス(MDP)はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布(行動aを選択してxから状態yに遷移する確率を…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。