付録D. マルチアームバンディット形式
- この節では、マルチアームバンディット(MAB)パラダイム、上限信頼限界(UCB)アルゴリズム、およびスライディングウィンドウUCBアルゴリズムについて簡潔に説明する。
- より完全な説明と分析については、Garivier & Moulines (2008)を参照してほしい。
- 各時間
で、MABアルゴリズムは、前の行動と報酬のシーケンスを条件とする方策
に従って、可能なアーム
からアーム
を選択する。
- そうすることで、報酬
を受け取る。
- 定常の場合、与えられたアームの報酬
は、 i.i.d.確率変数のシーケンスによってモデル化される。
- 非定常の場合、報酬
は、一連の独立確率変数によってモデル化されるが、その分布は時間とともに変化する可能性がある。
- MABアルゴリズムの目標は、特定の範囲
の予想累積報酬を最大化する方策
を見つけることである。
- 定常的なケースでは、UCBアルゴリズムはよく研究されており、一般的に使用されている。
- kステップ後にアームaがプレイされた回数を次のように定義する。
- また、kステップ後の腕aの経験的平均を次のように定義する。
- そして、UCBアルゴリズムは次のように定義される。
- 非定常の場合、UCBアルゴリズムは報酬分布の変化に適応できず、その場合はスライディングウィンドウUCBを使用できる。
- ウィンドウの長さ
は、地平線Kよりもはるかに小さくなければならないことが一般的に理解されている。
- 長さτのウィンドウに対して、kステップ後にアームaが再生された回数を次のように定義する。
- ここで、
は
を意味する。
- 長さτのウィンドウに対するkステップ後のアームaの経験的平均を定義する。
- そして、スライディングウィンドウUCBは次のように定義できます。
- ここで、
は
を意味する。
- 私たちの実験では、
-greedy探索を使用した簡略化されたスライディングウィンドウUCBを使用する。
- ここで、
は
から均一に引き出されたランダムな値であり、
は
から均一に引き出されたランダムな行動である。