TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

AlphaStarの論文を読む その12(評価)

評価

AlphaStar Battle.netの評価

  • AlphaStarエージェントは、StarCraft IIバランスパッチ4.9.3で、MMRレーティングに基づくBlizzardのオンラインマッチメイキングシステムBattle.netで人間に対して評価された。
  • AlphaStar Finalは、グランドマスターレベル(過去数か月でヨーロッパのサーバ(約90,000人のプレイヤー)のリーグで十分アクティブだった人間プレイヤーの99.8%を超える)と格付けされた。
対戦相手、匿名アカウント、ハードウェア、評価時点
  • AlphaStarは、実験への参加を選択した対戦相手(大半のプレイヤーが参加した)*1のみと対戦し、匿名のアカウント名を使用し、サイバーフォレスト、カイロスジャンクション、キングスコーブ、ニューリピュニャンの4つのマップで対戦した。
  • また、人間は少なくとも4つのマップを選択し、匿名のアカウント名で頻繁にプレイする必要がある。
  • 各エージェントは、単一のハイエンドコンシューマGPUで実行された。
  • 訓練中に、教師あり、中間点、最終の3つのポイントで評価した。
教師ありおよび中間点の評価の開始ランク
  • 教師ありおよび中間点の評価のために、各エージェントは新しいランク付けされていないアカウントで開始した。
MMR
  • それらのMMRは、人間と同様にBattle.netで更新された。
  • 教師ありおよび中間点の評価では、それぞれ30ゲームと60ゲームをプレイした。
  • まだ増加していたが、50ゲーム後に匿名性の制約が損なわれたため、中間点の評価は中止された。
複数のアカウントでのMMRの推定
  • Battle.netの最終評価では、複数のアカウントを使用してゲームを並列化し、識別を回避した。
  • 私たちのアカウントのMMRは、結合して推定された中間点MMRの分布からランダムにシードされた。
  • その結果、Battle.netで提供される反復MMR推定を使用しなくなった。代わりにブリザードが提供する基本的な確率モデルを使用した:不確実性uの評価rと不確実性u_i \in[0.1,1.0]の対戦相手の評価r_iが与えられたとき、結果o_i \in[-1,1の確率は、


\displaystyle
\mathbb{P}[o_{i}=1 | r, u, r_{i}, u_{i}] \\
=1-\mathbb{P}[o_{i}=-1 | r, u, r_{i}, u_{i}]=\Phi\left(\frac{r-r_{i}}{400 \sqrt{2+u^{2}+u_{i}^{2}}}\right) \approx \Phi\left(\frac{r-r_{i}}{568}\right)

  • ここで、\Phiは標準のガウス分布のCDFであり、Battle.netの最小不確実性を使用した場所u = u_i = 0.1である。
  • 対戦結果のi.i.d.およびMMRの均一な事前分布の仮定で、評価を


\displaystyle
\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \mathbb{P}[\mathrm{r} | \text { results }] \\
=\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \mathbb{P}[\mathrm{results} | \mathrm{r}] \mathrm{U}(\mathrm{r})=\operatorname{argmax}_{\mathrm{r} \in \mathbb{N}} \prod_{i=1}^{N} \mathbb{P}[\mathrm{o}_{\mathrm{i}} | \mathrm{r}, \mathrm{r}_{\mathrm{i}}]
として計算できる。

MMR推定値
  • Battle.netが報告した平均MMRは6336でしたが、プロのStarCraft IIプレイヤーであるDario “TLO” Wünschの最新の200試合でMMR計算を検証したところ、MMR推定値は6334でした。

StarCraftデモンストレーションでの評価

  • 2018年12月、私たちはStarCraft IIプロプレイヤーGrzegorz “MaNa” KominczとDario “TLO” Wünschに対して5つのゲームシリーズを2回プレイしましたが、TLOは彼がプロとしてプレイするのと同じStarCraft II種族でプレイしなかった。
  • これらのゲームは、AlphaStarの別の予備バージョンで行われた*2
  • 特に、エージェントはカメラが制限されておらず、また行動の頻度が制限されておらず、1つのマップに1つのStarCraft II種族で対戦していた。
  • AlphaStarは両方の5ゲームシリーズで10ゲームすべてに勝利したが、初期のカメラプロトタイプはMaNaに対するフォローアップゲームを失った。
感想

最終的な結果は、グランドマスターレベル(人間の上位99.8%)に達しています。

人間と同じ条件で強さを測定するための測定条件の詳細が述べられています。
人間にはAlphaStarだとわからないように匿名アカウントでプレイされています。
中間点の評価では途中で特定されてしまったようです。

人間との対戦では、ハイエンドコンシューマGPU1枚で実行されています。
探索を行っていないので、それほどGPU性能は必要なさそうです。

(続く)

AlphaStarの論文を読む - TadaoYamaokaの開発日記
AlphaStarの論文を読む その2 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その3 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その4 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その5(アーキテクチャ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その6(アーキテクチャその2) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その7(アーキテクチャその3) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その8(教師あり学習、強化学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その9(マルチエージェント学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その10(リーグ構成) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その11(インフラ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その12(評価) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その13(分析、AlphaStarの一般性) - TadaoYamaokaの開発日記