付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。
付録A MDPの背景
- マルコフ決定プロセス(MDP)はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布(行動aを選択してxから状態yに遷移する確率をとする)にマッピングした状態遷移分布、報酬関数、割引率0, 1[]を持つ。
- 確率的ポリシーπは、各状態を行動の分布にマッピングする(は、状態xでアクションaを選択する確率を示す)。 決定論的方策は、行動πの分布で表すこともできる。コンテキストが明確な場合は、残りの部分で同じ表記法πを使用してどちらかの概念を使用する。
- をとを使用して、方策によって生成された軌跡上の分布とする。
- 次に、方策および状態行動タプルの状態アクション値関数は、次のように定義される。
- 最適な状態行動価値関数は、次のように定義される。
- ここで、最大値はすべての確率的方策よりも優先される。
- すべての関数およびすべての状態行動タプルに対して、次のように1ステップの評価ベルマン作用素を定義する。
- 1ステップ評価のベルマン作用素は、ベクトル表記で書くこともできる。
- 最後に、すべての関数およびすべての状態について、次のように貪欲作用素を定義する。
- 次に、固定点引数を介して、次の離散スキームのように(Puterman, 1990)を示すことができる。
- ここで、は任意に初期化でき、に収束する。
- この離散スキームは、1ステップ価値反復スキームと呼ばれる。
- ここで、hは単調に増加する可逆のスカッシング関数であり、状態行動価値関数をスケーリングして、ニューラルネットワークの近似を容易にする。
- 特に、関数hを使用する。
- ここで、は小さい数である。
- 1ステップ変換された評価ベルマン作用素は、ベクトル表記で書くこともできる。
- (Pohlen et al., 2018)に関するいくつかの条件下で、収縮引数を介して、変換された1ステップの価値反復スキームが次のように示される。
- ここで、は任意に初期化でき、収束する。
- この極限に注意してほしい。
(続く)