付録A AlphaZeroとの比較
- MuZeroは、AlphaGo Zero*1やAlphaZero*2よりも一般的な設定向けに設計されている。
AlphaZeroのプランニング
- AlphaGo ZeroとAlphaZeroでは、プランニングプロセスは2つの別個のコンポーネントを使用する。
- シミュレーターは、ゲームのルールを実装する。これは、探索木を走査しながらゲームの状態を更新するために使用される。
- また、ニューラルネットワークは、シミュレータによって生成された局面の対応する方策と価値を合わせて予測する(図1 Aを参照)。
AlphaZeroとの比較の詳細
- 具体的には、AlphaGo ZeroおよびAlphaZeroは、(1)探索木の状態遷移、(2)探索木の各ノードで利用可能な行動、(3)探索木内のエピソード終了の3つの場所でゲームのルールの知識を使用する 。
- MuZeroでは、これらのすべてが、ニューラルネットワークによって学習された単一の暗黙的なモデルの使用に置き換えられた(図1 Bを参照)。
- 1) 状態遷移
- 2) 利用可能な行動
- AlphaZeroは、シミュレーターから取得した一連の合法な行動を使用して、探索木のあらゆる場所でネットワークによって生成された事前分布をマスクした。
- MuZeroは、環境のクエリが可能な探索木のルートでのみ合法な行動をマスクしますが、探索木内ではマスキングを実行しない。
- これは、ネットワークが訓練された軌跡で決して発生しない行動を予測しないことを急速に学習するために可能である。
- 3) 終端ノード
- AlphaZeroは、終端の状態を表すノードで探索を停止し、ネットワークによって生成された価値の代わりに、シミュレータによって提供された終端の価値を使用した。
- MuZeroは終端ノードに特別な処理を行わず、ネットワークによって予測された価値を常に使用する。
- 木内で、探索は終端ノードを通過できる。この場合、ネットワークは常に同じ価値を予測することが期待される。
- これは、訓練中に終端状態を吸収状態として扱うことで実現されます。
AlphaZeroより一般的な設定
- さらに、MuZeroは一般的な強化学習設定(任意の大きさの割引された中間報酬を持つシングルエージェントドメイン)で動作するように設計されている。
- 対照的に、AlphaGo ZeroとAlphaZeroは、±1の割引なしの終端報酬で2プレイヤーゲームで動作するように設計されている。
感想
AlphaZeroではMCTSのシミュレーションでは探索中の局面で着手を合法手でマスキングするためにゲームのルールを使用していましたが、MuZeroではマスキングを行わないことが述べられています。
ニューラルネットワークを訓練することで、常に合法手が出力されることを期待しています。
また、AlphaZeroでは探索中にゲームの終了をチェックして、ゲームの結果を価値としてバックアップを行っていましたが、MuZeroでは終了のチェックは行わず常にネットワークが予測する価値を使用しています。
この仕組みだと探索中にゲームの終了を認識できないので、終端状態を通過して探索を続けてしまう問題があります。
対策として、訓練中に終了状態からは同じ終了状態に遷移するように訓練されています。マルコフ連鎖の用語で吸収状態(absorbing states)というようです。
将棋では、詰みの状態はいくら駒損しても詰めばよいため序盤中盤の局面とは性質が違うため、ゲームルールを使用した探索の支援なしにニューラルネットワークのみで学習するのは難しそうですが、MuZeroで学習できているのはすごいことのように思います。
MuZeroの一般性については、AlphaZeroは中間報酬のない2人ボードゲームに特化していましたが、中間報酬と割引ありシングルエージェントに適用できると述べられています。
それによって、AtariにもAlphaZeroライクな探索が導入可能になっています。
(続く)