TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

AlphaStarの論文を読む その3

続きです。

本文の残りの部分です。

実験による評価

対戦条件

  • 公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した
  • 3つのメインエージェントTerran、Protoss、Zergを評価
  • 各エージェントは、訓練中に3つの異なるスナップショットで評価
  1. 教師ありトレーニングのみ(AlphaStar Supervised)
  2. 27日間のリーグトレーニング(AlphaStar Mid)
  3. 44日間のリーグトレーニング(AlphaStar Final)
  • AlphaStar SupervisedとAlphaStar Midは、Battle.netのランクなしレーティングで、各種族でそれぞれ30ゲームと60ゲームを行い評価
  • AlphaStar Finalは、AlphaStar Midのレーティングから、各種族でさらに30ゲームを行い評価
  • Battle.netのマッチメイキングで、マップと対戦相手を選択
  • 対戦はブラインド条件で実施:AlphaStarには対戦相手が明かされない。匿名アカウントでプレイ。
  • これらの条件は、定常状態でのAlphaStarの強さを推定するために選択されたが、悪用可能な弱点がないことを直接測るものではない

評価結果

  • AlphaStar Finalは、Protossで6,275マッチメイキングレーティングMMR)、Terran で6,048、Zergで5,835のレーティングを達成
  • ランク付けされた人間プレイヤーの99.8%を超える
  • 3つの種族すべてでグランドマスターレベルに達した
  • AlphaStar Supervisedは平均レーティング3,699に達し、人間のプレイヤーの84%を超え、教師あり学習の効果を示している

f:id:TadaoYamaoka:20191102124633p:plain

感想

人間の対戦条件にした点が、前回との違いです。前回は特定のマップと種族に制限していました。
重大な弱点がないかを測るものではないと言及していますが、これについてredditで議論されていました。
成果自体は素晴らしいという肯定的意見もありますが、人間の99.8%に勝ってもトッププレイヤーに勝ったわけではないとか、真偽は分かりませんががすでにAlphaStarに有効な戦略を見つけているよみたいな否定的な書き込みもありました。

アブレーション(構成要素を抜いて効果を測定すること)と追加評価

  • さらに分析するため内部アブレーションを実施(図3)

f:id:TadaoYamaoka:20191102125248p:plain:w250

f:id:TadaoYamaoka:20191102125639p:plain:w250

  • メインエージェントのパフォーマンスは、3つの種族すべてで着実に向上した
  • メインエクスプロイトエージェントのパフォーマンスは、時間の経過とともに低下
  • メインエージェントはホールドアウトした検証エージェントに対してパフォーマンスが向上
  • これはメインエージェントが堅牢になったことを示している
  • 各時点でのリーグのすべてのプレイヤーのナッシュ均衡は、以前のイテレーションに対して小さな勝率を得る
  • 学習アルゴリズムが循環または回帰しないことを示唆している

f:id:TadaoYamaoka:20191102131424p:plain:w150

  • リーグの訓練を通してユニットの構成が変更され、多様な戦略的進歩が示された

f:id:TadaoYamaoka:20191102131522p:plain:w250

感想

図3Fのスキャッター接続の効果が高いが、スキャッター接続が空間情報と非空間情報を接続するという説明はあるが、具体的などうしているかが論文中に書かれていないので、具体的に知りたいところです。
ゲーム理論に詳しくないので図4Cのナッシュ均衡のグラフの読み方がよくわからなかった。

結論

  • AlphaStarは、StarCraft IIでグランドマスターレベルを達成した最初のエージェント
  • ゲームを簡素化することなく、広範なプロeスポーツで人間のプレーヤーの最高のリーグに到達した最初のエージェント
  • StarCraftと同様に、パーソナルアシスタント、自動運転車、ロボット工学などの実世界のドメインでは、不完全に観測された情報が与えられた場合リアルタイムの決定が必要
  • StarCraftと同様に、多くのアプリケーションには、サイクルまたは悪用可能な弱点を含む複雑な戦略があり、エージェントを現実世界に展開すると予期しない戦略または複雑なエッジケースに遭遇する場合がある
  • StarCraft IIでのAlphaStarの成功は、汎用の機械学習アルゴリズムが実際の複雑な問題に大きな影響を与える可能性があることを示唆している

本文は以上です。
次回からMethodsを読んでいきます。
(続く)

AlphaStarの論文を読む - TadaoYamaokaの日記
AlphaStarの論文を読む その2 - TadaoYamaokaの日記
AlphaStarの論文を読む その3 - TadaoYamaokaの日記
AlphaStarの論文を読む その4 - TadaoYamaokaの日記
AlphaStarの論文を読む その5 - TadaoYamaokaの日記
AlphaStarの論文を読む その6 - TadaoYamaokaの日記
AlphaStarの論文を読む その7 - TadaoYamaokaの日記
AlphaStarの論文を読む その8 - TadaoYamaokaの日記
AlphaStarの論文を読む その9 - TadaoYamaokaの日記
AlphaStarの論文を読む その10(リーグ構成) - TadaoYamaokaの日記
AlphaStarの論文を読む その11(インフラ) - TadaoYamaokaの日記
AlphaStarの論文を読む その12(評価) - TadaoYamaokaの日記
AlphaStarの論文を読む その13(分析、AlphaStarの一般性) - TadaoYamaokaの日記