TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

AlphaStarの論文を読む その12(評価)

評価

AlphaStar Battle.netの評価

  • AlphaStarエージェントは、StarCraft IIバランスパッチ4.9.3で、MMRレーティングに基づくBlizzardのオンラインマッチメイキングシステムBattle.netで人間に対して評価された。
  • AlphaStar Finalは、グランドマスターレベル(過去数か月でヨーロッパのサーバ(約90,000人のプレイヤー)のリーグで十分アクティブだった人間プレイヤーの99.8%を超える)と格付けされた。
対戦相手、匿名アカウント、ハードウェア、評価時点
  • AlphaStarは、実験への参加を選択した対戦相手(大半のプレイヤーが参加した)*1のみと対戦し、匿名のアカウント名を使用し、サイバーフォレスト、カイロスジャンクション、キングスコーブ、ニューリピュニャンの4つのマップで対戦した。
  • また、人間は少なくとも4つのマップを選択し、匿名のアカウント名で頻繁にプレイする必要がある。
  • 各エージェントは、単一のハイエンドコンシューマGPUで実行された。
  • 訓練中に、教師あり、中間点、最終の3つのポイントで評価した。
教師ありおよび中間点の評価の開始ランク
  • 教師ありおよび中間点の評価のために、各エージェントは新しいランク付けされていないアカウントで開始した。
MMR
  • それらのMMRは、人間と同様にBattle.netで更新された。
  • 教師ありおよび中間点の評価では、それぞれ30ゲームと60ゲームをプレイした。
  • まだ増加していたが、50ゲーム後に匿名性の制約が損なわれたため、中間点の評価は中止された。
複数のアカウントでのMMRの推定
  • Battle.netの最終評価では、複数のアカウントを使用してゲームを並列化し、識別を回避した。
  • 私たちのアカウントのMMRは、結合して推定された中間点MMRの分布からランダムにシードされた。
  • その結果、Battle.netで提供される反復MMR推定を使用しなくなった。代わりにブリザードが提供する基本的な確率モデルを使用した:不確実性uの評価rと不確実性u_i \in[0.1,1.0]の対戦相手の評価r_iが与えられたとき、結果o_i \in[-1,1の確率は、


\displaystyle
\mathbb{P}[o_{i}=1 | r, u, r_{i}, u_{i}] \\
=1-\mathbb{P}[o_{i}=-1 | r, u, r_{i}, u_{i}]=\Phi\left(\frac{r-r_{i}}{400 \sqrt{2+u^{2}+u_{i}^{2}}}\right) \approx \Phi\left(\frac{r-r_{i}}{568}\right)

  • ここで、\Phiは標準のガウス分布のCDFであり、Battle.netの最小不確実性を使用した場所u = u_i = 0.1である。
  • 対戦結果のi.i.d.およびMMRの均一な事前分布の仮定で、評価を


\displaystyle
\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \mathbb{P}[\mathrm{r} | \text { results }] \\
=\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \mathbb{P}[\mathrm{results} | \mathrm{r}] \mathrm{U}(\mathrm{r})=\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \prod_{i=1}^{N} \mathbb{P}[\mathrm{o}_{\mathrm{i}} | \mathrm{r}, \mathrm{r}_{\mathrm{i}}]
として計算できる。

MMR推定値
  • Battle.netが報告した平均MMRは6336でしたが、プロのStarCraft IIプレイヤーであるDario “TLO” Wünschの最新の200試合でMMR計算を検証したところ、MMR推定値は6334でした。

StarCraftデモンストレーションでの評価

  • 2018年12月、私たちはStarCraft IIプロプレイヤーGrzegorz “MaNa” KominczとDario “TLO” Wünschに対して5つのゲームシリーズを2回プレイしましたが、TLOは彼がプロとしてプレイするのと同じStarCraft II種族でプレイしなかった。
  • これらのゲームは、AlphaStarの別の予備バージョンで行われた*2
  • 特に、エージェントはカメラが制限されておらず、また行動の頻度が制限されておらず、1つのマップに1つのStarCraft II種族で対戦していた。
  • AlphaStarは両方の5ゲームシリーズで10ゲームすべてに勝利したが、初期のカメラプロトタイプはMaNaに対するフォローアップゲームを失った。