続きです。
本文の残りの部分です。
実験による評価
対戦条件
- 公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した
- 3つのメインエージェントTerran、Protoss、Zergを評価
- 各エージェントは、訓練中に3つの異なるスナップショットで評価
- AlphaStar SupervisedとAlphaStar Midは、Battle.netのランクなしレーティングで、各種族でそれぞれ30ゲームと60ゲームを行い評価
- AlphaStar Finalは、AlphaStar Midのレーティングから、各種族でさらに30ゲームを行い評価
- Battle.netのマッチメイキングで、マップと対戦相手を選択
- 対戦はブラインド条件で実施:AlphaStarには対戦相手が明かされない。匿名アカウントでプレイ。
- これらの条件は、定常状態でのAlphaStarの強さを推定するために選択されたが、悪用可能な弱点がないことを直接測るものではない
評価結果
- AlphaStar Finalは、Protossで6,275マッチメイキングレーティング(MMR)、Terran で6,048、Zergで5,835のレーティングを達成
- ランク付けされた人間プレイヤーの99.8%を超える
- 3つの種族すべてでグランドマスターレベルに達した
- AlphaStar Supervisedは平均レーティング3,699に達し、人間のプレイヤーの84%を超え、教師あり学習の効果を示している
アブレーション(構成要素を抜いて効果を測定すること)と追加評価
- さらに分析するため内部アブレーションを実施(図3)
- 教師あり学習したエージェントに対する強さを測定(図4)
- メインエージェントのパフォーマンスは、3つの種族すべてで着実に向上した
- メインエクスプロイトエージェントのパフォーマンスは、時間の経過とともに低下
- メインエージェントはホールドアウトした検証エージェントに対してパフォーマンスが向上
- これはメインエージェントが堅牢になったことを示している
- 各時点でのリーグのすべてのプレイヤーのナッシュ均衡は、以前のイテレーションに対して小さな勝率を得る
- 学習アルゴリズムが循環または回帰しないことを示唆している
- リーグの訓練を通してユニットの構成が変更され、多様な戦略的進歩が示された
結論
- AlphaStarは、StarCraft IIでグランドマスターレベルを達成した最初のエージェント
- ゲームを簡素化することなく、広範なプロeスポーツで人間のプレーヤーの最高のリーグに到達した最初のエージェント
- StarCraftと同様に、パーソナルアシスタント、自動運転車、ロボット工学などの実世界のドメインでは、不完全に観測された情報が与えられた場合リアルタイムの決定が必要
- StarCraftと同様に、多くのアプリケーションには、サイクルまたは悪用可能な弱点を含む複雑な戦略があり、エージェントを現実世界に展開すると予期しない戦略または複雑なエッジケースに遭遇する場合がある
- StarCraft IIでのAlphaStarの成功は、汎用の機械学習アルゴリズムが実際の複雑な問題に大きな影響を与える可能性があることを示唆している
本文は以上です。
次回からMethodsを読んでいきます。
(続く)
AlphaStarの論文を読む - TadaoYamaokaの開発日記
AlphaStarの論文を読む その2 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その3 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その4 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その5(アーキテクチャ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その6(アーキテクチャその2) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その7(アーキテクチャその3) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その8(教師あり学習、強化学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その9(マルチエージェント学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その10(リーグ構成) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その11(インフラ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その12(評価) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その13(分析、AlphaStarの一般性) - TadaoYamaokaの開発日記