付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。
付録A MDPの背景
- マルコフ決定プロセス(MDP)はタプル
であり、Xは状態空間、Aは行動空間、Pは各状態行動タプル
を状態上の確率分布(行動aを選択してxから状態yに遷移する確率を
とする)にマッピングした状態遷移分布、報酬関数
、割引率
0, 1[]を持つ。
- 確率的ポリシーπは、各状態を行動の分布にマッピングする(
は、状態xでアクションaを選択する確率を示す)。 決定論的方策
は、行動πの分布
で表すこともできる。コンテキストが明確な場合は、残りの部分で同じ表記法πを使用してどちらかの概念を使用する。
を
と
を使用して、方策
によって生成された軌跡
上の分布とする。
- 次に、方策
および状態行動タプル
の状態アクション値関数
は、次のように定義される。
- 最適な状態行動価値関数
は、次のように定義される。
- ここで、最大値はすべての確率的方策よりも優先される。
- すべての関数
およびすべての状態行動タプル
に対して、次のように1ステップの評価ベルマン作用素を定義する。
- 1ステップ評価のベルマン作用素は、ベクトル表記で書くこともできる。
- 最後に、すべての関数
およびすべての状態
について、次のように貪欲作用素
を定義する。
- 次に、固定点引数を介して、次の離散スキームのように(Puterman, 1990)を示すことができる。
- ここで、
は任意に初期化でき、
に収束する。
- この離散スキームは、1ステップ価値反復スキームと呼ばれる。
- ここで、hは単調に増加する可逆のスカッシング関数であり、状態行動価値関数をスケーリングして、ニューラルネットワークの近似を容易にする。
- 特に、関数hを使用する。
- ここで、
は小さい数である。
- 1ステップ変換された評価ベルマン作用素は、ベクトル表記で書くこともできる。
(Pohlen et al., 2018)に関するいくつかの条件下で、収縮引数を介して、変換された1ステップの価値反復スキームが次のように示される。
- ここで、
は任意に初期化でき、収束する。
- この極限
に注意してほしい。
(続く)