付録G 訓練
- 訓練中に、MuZeroネットワークはK個の仮想ステップに対して展開され、MCTSアクターによって生成された軌跡からサンプリングされたシーケンスに合わせられる。
- シーケンスは、リプレイバッファ内の任意のゲームから状態をサンプリングし、その状態からKステップ分展開することで選択される。
- Atariでは、サンプルは優先度の優先度付き経験再生*1に従って再生される。ここで、、𝑣は探索価値、𝑧は観測されたnステップ収益である。
- 優先サンプリングによって導入されたサンプリングバイアスを修正するために、重要度サンプリング比を使用して損失をスケーリングする。
- すべての実験で、に設定する。
- ボードゲームの場合、状態は均一にサンプリングされる。
観測値、損失
勾配のスケーリング
論文での設定
- この論文で報告されている実験では、常にステップで展開する。
- 詳細な図については、図1を参照。
隠れ状態のスケーリング
- 学習プロセスを改善し、アクティベーションを制限するために、隠れ状態を行動入力と同じ範囲()にスケーリングする:
ハードウェア
感想
付録Gでは訓練の詳細について述べられています。
Atariではリプレイバッファからサンプリングする際に優先度付き経験再生が使用されていますが、ボードゲームでは使用していない理由について気になります。
優先度付き経験再生を使用すると逆効果なのか、効果が小さかったのかもしれません。
私が作っている将棋AIでもそのうち実験したいと思っています。
損失には3種類あり、AlphaZeroにはなかった報酬目標の損失が加わっています。しかし、中間報酬ボードゲームでは使用されず、Atariのみで使用されています。
価値の損失は、ボードゲームではブートストラップされず(モンテカルロ法)、Atariでは10ステップ先でブートストラップしています。
ボードゲームでもelmo式のように、モンテカルロ法と按分してブートストラップすることも有効だと思っていますが、そのうち検証してみたいと思っています。
使用しているハードウェアは、AlphaZeroでは学習用に第2世代TPU64、自己対局に第1世代3000でしたが、どちらも第3世代になっています。
次回は評価についてです。次で最後です。
(続く)