付録B 探索
- MuZeroで使用される探索アルゴリズムについて説明する。
- 私たちのアプローチは、信頼区間の上限(UCB; upper confidence bounds)のあるモンテカルロ木探索、単一エージェントドメインの最適な方策とゼロサムゲームのミニマックス価値関数に漸近的に収束するプランニングアプローチに基づいている*1。
- 探索木のすべてのノードは、内部状態𝑠に関連付けられている。
- 𝑠からの各行動𝑎には、一連の統計を保存するエッジがある。それぞれ訪問数N、平均価値Q、方策P、報酬R、および状態遷移Sを表す。
- AlphaZeroと同様に、探索は3つの段階に分割され、多くのシミュレーションで繰り返される。
選択
- 各シミュレーションは内部ルート状態から始まり、シミュレーションがリーフノードに到達すると終了する。
- シミュレーションの各仮想時間ステップに対して、信頼区間の上限を最大化することにより、内部状態の保存された統計量に従って行動が選択される*2*3。
- 定数およびは、ノードがより頻繁にアクセスされるときに、価値に対する事前分布の影響を制御するために使用される。
- 私たちの実験では、およびである。
- の場合、次の状態と報酬は、状態遷移と報酬テーブル, で検索される。
展開
バックアップ
- シミュレーションの最後に、軌跡に沿った統計が更新される。
- バックアップは、環境が(1とは異なる割引γを持っている)中間報酬を出すことができる場合に一般化されており、価値の見積もりには制限がない(ボードゲームでは、割引は1と想定されており、中間報酬はない)。
- の場合、以下の(価値関数からブートストラップされる)累積割引報酬のステップ推定値を形成する。
- の場合、シミュレーションパスの各エッジの統計を次のように更新する。
- 2人ゼロサムゲームでは、価値関数は[0,1]の間に制限されると想定される。
- この選択により、pUCTルール(式2)を使用して、価値の推定値と確率を組み合わせることができる。
- ただし、多くの環境では価値に制限がないため、pUCTルールを調整する必要がある。
- 簡単な解決策は、環境で観察できる最大スコアを使用して、価値を再スケーリングするか、pUCT定数を適切に設定することである*4。
- ただし、どちらのソリューションもゲーム固有であり、MuZeroアルゴリズムに事前知識を追加する必要がある。
- これを回避するために、MuZeroは、その時点までに探索木で観測された最小値と最大値を使用して、正規化されたQ値推定値]を計算する。
- 選択の段階でノードに到達すると、アルゴリズムは、以下の式を使用してpUCTルールで使用されるエッジの正規化されたQ値を計算する。