付録B B.外発的-内発的分解
- 内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。
- 価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。
- ここで、は任意に初期化できる。
- ここで、別々の内発的および外発的な状態行動価値関数を使用して、に収束する方法を示す必要がある。
- 実際、次の離散スキームを考えてみよう。
- ここで、関数は任意に初期化できる。
私たちの目標は、外発的と内発的状態行動価値関数の線形結合を示すことである。
- 報酬に関して1ステップの価値反復スキームを検証し、に収束することを示す。
- それを示すために、を書き換える。
- したがって、は、報酬に関して価値反復スキームを満たしていることがわかる。
- そして収縮性質によって:
- この結果は、とを別々に計算し、それらを混合して、混合報酬でを直接計算した場合と同じ動作を得ることができることを意味する。
- これは、外発的コンポーネントと内発的コンポーネントを別々に計算できることを意味する。
- 各アーキテクチャは、さまざまな混合に対する状態行動価値を学習し、状態行動価値関数の混合の貪欲な方策に従って動作する必要がある。
- この結果は、潜在的な将来の研究の方向性を示唆する可能性のあるBarreto et al. (2017)と関連していると考えることもできる。
- 同じタイプの結果が、変換された状態行動価値関数にも当てはまる。
- 実際、次の離散スキームで計算できる最適な変換された状態行動価値関数を考えてみよう。
- ここで、は任意に初期化できる。
- ここで、別々の内発的および外発的状態行動価値関数を使用して、を異なる方法で計算する方法を示す。
- 実際、次の離散スキームを考えてみよう。
- ここで、関数は任意に初期化できる。
- が次のように定義されることを示したい。
- 報酬に関してワンステップ変換価値反復スキームを検証し、に収束することを示す。
- を書き直してみよう。
- したがって、は、報酬に関して、1ステップの変換価値反復スキームを満たしていることがわかる。
- そして収縮によって、
- 変換が恒等式である場合、内発的と外発的状態行動価値関数の間の線形混合を回復することに注意してほしい。
(続く)