2020-05-18から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読むその１０

Agent57

付録C.リトレースおよび変換されたリトレースリトレースは、評価または制御のための方策オフのRLアルゴリズムである。評価設定の目標は、行動方策から引き出された軌跡からターゲット方策の状態行動価値関数を推定することである。制御設定では、を近似す…