付録C.リトレースおよび変換されたリトレース
- リトレースは、評価または制御のための方策オフのRLアルゴリズムである。
- 評価設定の目標は、行動方策から引き出された軌跡からターゲット方策の状態行動価値関数を推定することである。
- 制御設定では、を近似するために、一連のターゲット方策および状態行動価値関数を作成することが目標である。
- およびに依存する評価リトレース演算子は、すべての関数およびすべての状態行動タプルについて、次のように定義される。
- ここで、TD誤差は次のように定義される。
- およびトレース係数は次のとおりである。
- ここで、は固定パラメータ]である。
- 演算子は、方策を評価するためにの動作を修正する多段階評価演算子である。
- Munosらの定理1で、がの不動点であることが示されている。
- さらに、Munosらの定理2は、リトレース価値反復スキーム:
- ここで、は任意に初期化され、に依存する可能性のある方策の任意のシーケンスである。
- ワンステップベルマン演算子の場合と同様に、リトレース演算子の変換された対になるものを定義することもできる。
- より具体的には、すべての関数およびすべての状態行動タプルに対して、変換されたリトレース演算子を定義できる。
- ここで、TD誤差は次のように定義される。
- リトレース演算子の場合と同様に、変換されたリトレース価値の反復スキームを定義できる。
- ここで、は任意に初期化され、は方策の任意のシーケンスである。
C.1. リトレースおよび変換されたリトレースのための外発的-内発的分解
- 付録Bと同じ方法論に従って、報酬がの形式である場合、状態行動価値関数が、リトレースおよび変換されたリトレース価値反復スキームの外発的および内発的コンポーネントに分解できることを示すこともできる。
- 実際、次の離散スキームを定義すると、
- ここで、関数は任意に初期化することができ、は方策の任意のシーケンスである。
- 次に、線形結合であることを示すのは簡単である。
- リトレース価値の反復スキームを検証する。
- 同様に、次の離散スキームを定義すると、
- ここで、関数は任意に初期化することができ、は方策の任意のシーケンスである。
- 次に、が次のように定義されることを示すことも簡単である。
- 変換されたリトレース価値の反復スキームを検証する。
C.2. ニューラルネットのリトレースおよび変換リトレース損失
- この節では、有限データとニューラルネットワークでリトレース価値反復スキームをどのように近似するかを説明する。
- 最初に、注目すべき重要なことの1つは、評価ステップを書き直すことができるということである。
- ここで、は関数空間上の任意のノルムである。
- つまり、評価ステップは、関数空間上の最適化問題として見ることができ、ここで、最適化は、目標に一致する関数を見つけることからなる。
- 実際には、2つの重要な問題に直面している。
- 探索空間は大きすぎ、有限のデータセットがあるため、どこでもを評価できない。
- 前者に取り組むための可能な解決策は、ニューラルネットワークなどの関数近似を使用することである。
- そこで、オンラインネットワークとも呼ばれる状態行動価値関数(ここではニューラルネットワークのパラメータの集合)をパラメータ化する。
- 後者については、のサンプリングされた推定値を作成し、最適化問題の目標として使用する。
- 実際には、目標は、ニューラルネットワークの以前の固定セットのパラメーターから構築される。
- はターゲットネットワークと呼ばれる。
- ターゲットネットワークは、学習中に一定の頻度でオンラインネットワークの値に更新される。
- より正確には、サイズの有限サンプリングされたシーケンスのサイズのバッチを考えてみよう:から始まり、次に挙動方策に従う。
- すると、有限のサンプリングされたRetraceターゲットを次のように定義することができる。
- ここで、はターゲット方策である。
- ターゲットが計算されたら、次の損失関数を最小化することにより、それらのターゲットに適合するパラメーターを見つけることが目標である。
- したがって、実際には、リトレース価値反復スキームの評価ステップは、オプティマイザを使用して損失を最小化することによって概算される。
- 貪欲なステップは、オンラインネットワークに関して貪欲であり、次のようにターゲット方策を選択することによって実現される:。
- 変換されたリトレース演算子の場合、次のターゲットがある。
- そして、変換されたリトレース損失関数は次のとおりである。