TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

2020-05-18から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読む その10

付録C.リトレースおよび変換されたリトレース リトレースは、評価または制御のための方策オフのRLアルゴリズムである。 評価設定の目標は、行動方策から引き出された軌跡からターゲット方策の状態行動価値関数を推定することである。 制御設定では、を近似す…