付録C.リトレースおよび変換されたリトレース
- リトレースは、評価または制御のための方策オフのRLアルゴリズムである。
- 評価設定の目標は、行動方策
から引き出された軌跡からターゲット方策
の状態行動価値関数
を推定することである。
- 制御設定では、
を近似するために、一連のターゲット方策
および状態行動価値関数
を作成することが目標である。
および
に依存する評価リトレース演算子
は、すべての関数
およびすべての状態行動タプル
について、次のように定義される。
- ここで、TD誤差
は次のように定義される。
- およびトレース係数
は次のとおりである。
- ここで、
は固定パラメータ
]である。
- 演算子
は、方策
を評価するために
の動作を修正する多段階評価演算子である。
- Munosらの定理1で、
が
の不動点であることが示されている。
- さらに、Munosらの定理2は、リトレース価値反復スキーム:
- ここで、
は任意に初期化され、
に依存する可能性のある方策の任意のシーケンスである。
- ワンステップベルマン演算子の場合と同様に、リトレース演算子の変換された対になるものを定義することもできる。
- より具体的には、すべての関数
およびすべての状態行動タプル
に対して、変換されたリトレース演算子
を定義できる。
- ここで、TD誤差は次のように定義される。
- リトレース演算子の場合と同様に、変換されたリトレース価値の反復スキームを定義できる。
- ここで、
は任意に初期化され、
は方策の任意のシーケンスである。
C.1. リトレースおよび変換されたリトレースのための外発的-内発的分解
- 付録Bと同じ方法論に従って、報酬が
の形式である場合、状態行動価値関数が、リトレースおよび変換されたリトレース価値反復スキームの外発的および内発的コンポーネントに分解できることを示すこともできる。
- 実際、次の離散スキームを定義すると、
- ここで、関数
は任意に初期化することができ、
は方策の任意のシーケンスである。
- 次に、線形結合
であることを示すのは簡単である。
- リトレース価値の反復スキームを検証する。
- 同様に、次の離散スキームを定義すると、
- ここで、関数
は任意に初期化することができ、
は方策の任意のシーケンスである。
- 次に、
が次のように定義されることを示すことも簡単である。
- 変換されたリトレース価値の反復スキームを検証する。
C.2. ニューラルネットのリトレースおよび変換リトレース損失
- この節では、有限データとニューラルネットワークでリトレース価値反復スキームをどのように近似するかを説明する。
- 最初に、注目すべき重要なことの1つは、評価ステップを書き直すことができるということである。
- ここで、
は関数空間
上の任意のノルムである。
- つまり、評価ステップは、関数空間上の最適化問題として見ることができ、ここで、最適化は、目標
に一致する関数
を見つけることからなる。
- 実際には、2つの重要な問題に直面している。
- 探索空間
は大きすぎ、有限のデータセットがあるため、どこでも
を評価できない。
- 前者に取り組むための可能な解決策は、ニューラルネットワークなどの関数近似を使用することである。
- そこで、オンラインネットワークとも呼ばれる状態行動価値関数
(ここで
はニューラルネットワークのパラメータの集合)をパラメータ化する。
- 後者については、
のサンプリングされた推定値を作成し、最適化問題の目標として使用する。
- 実際には、目標は、ニューラルネットワークの以前の固定セットのパラメーター
から構築される。
はターゲットネットワークと呼ばれる。
- ターゲットネットワークは、学習中に一定の頻度でオンラインネットワークの値に更新される。
- より正確には、サイズ
の有限サンプリングされたシーケンスのサイズ
のバッチを考えてみよう:
から始まり、次に挙動方策
に従う。
- すると、有限のサンプリングされたRetraceターゲットを次のように定義することができる。
- ここで、
はターゲット方策である。
- ターゲットが計算されたら、次の損失関数を最小化することにより、それらのターゲットに適合するパラメーター
を見つけることが目標である。
- したがって、実際には、リトレース価値反復スキームの評価ステップ
は、オプティマイザを使用して損失
を最小化することによって概算される。
- 貪欲なステップ
は、オンラインネットワークに関して貪欲であり、次のようにターゲット方策を選択することによって実現される:
。
- 変換されたリトレース演算子の場合、次のターゲットがある。
- そして、変換されたリトレース損失関数は次のとおりである。