AlphaStarの論文を読むその３ - TadaoYamaokaの開発日記

続きです。

本文の残りの部分です。

実験による評価

対戦条件

公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した
3つのメインエージェントTerran、Protoss、Zergを評価
各エージェントは、訓練中に3つの異なるスナップショットで評価

教師ありトレーニングのみ（AlphaStar Supervised）
27日間のリーグトレーニング（AlphaStar Mid）
44日間のリーグトレーニング（AlphaStar Final）

AlphaStar SupervisedとAlphaStar Midは、Battle.netのランクなしレーティングで、各種族でそれぞれ30ゲームと60ゲームを行い評価
AlphaStar Finalは、AlphaStar Midのレーティングから、各種族でさらに30ゲームを行い評価
Battle.netのマッチメイキングで、マップと対戦相手を選択
対戦はブラインド条件で実施：AlphaStarには対戦相手が明かされない。匿名アカウントでプレイ。
これらの条件は、定常状態でのAlphaStarの強さを推定するために選択されたが、悪用可能な弱点がないことを直接測るものではない

評価結果

AlphaStar Finalは、Protossで6,275マッチメイキングレーティング（MMR）、Terran で6,048、Zergで5,835のレーティングを達成
ランク付けされた人間プレイヤーの99.8％を超える
3つの種族すべてでグランドマスターレベルに達した
AlphaStar Supervisedは平均レーティング3,699に達し、人間のプレイヤーの84％を超え、教師あり学習の効果を示している

f:id:TadaoYamaoka:20191102124633p:plain

感想

人間の対戦条件にした点が、前回との違いです。前回は特定のマップと種族に制限していました。
重大な弱点がないかを測るものではないと言及していますが、これについてredditで議論されていました。
成果自体は素晴らしいという肯定的意見もありますが、人間の99.8％に勝ってもトッププレイヤーに勝ったわけではないとか、真偽は分かりませんががすでにAlphaStarに有効な戦略を見つけているよみたいな否定的な書き込みもありました。

アブレーション（構成要素を抜いて効果を測定すること）と追加評価

さらに分析するため内部アブレーションを実施（図３）

f:id:TadaoYamaoka:20191102125248p:plain:w250

教師あり学習したエージェントに対する強さを測定（図４）

f:id:TadaoYamaoka:20191102125639p:plain:w250

メインエージェントのパフォーマンスは、3つの種族すべてで着実に向上した
メインエクスプロイトエージェントのパフォーマンスは、時間の経過とともに低下
メインエージェントはホールドアウトした検証エージェントに対してパフォーマンスが向上
これはメインエージェントが堅牢になったことを示している
各時点でのリーグのすべてのプレイヤーのナッシュ均衡は、以前のイテレーションに対して小さな勝率を得る
学習アルゴリズムが循環または回帰しないことを示唆している

f:id:TadaoYamaoka:20191102131424p:plain:w150

リーグの訓練を通してユニットの構成が変更され、多様な戦略的進歩が示された

f:id:TadaoYamaoka:20191102131522p:plain:w250

感想

図３Fのスキャッター接続の効果が高いが、スキャッター接続が空間情報と非空間情報を接続するという説明はあるが、具体的などうしているかが論文中に書かれていないので、具体的に知りたいところです。
ゲーム理論に詳しくないので図４Cのナッシュ均衡のグラフの読み方がよくわからなかった。

結論

AlphaStarは、StarCraft IIでグランドマスターレベルを達成した最初のエージェント
ゲームを簡素化することなく、広範なプロeスポーツで人間のプレーヤーの最高のリーグに到達した最初のエージェント
StarCraftと同様に、パーソナルアシスタント、自動運転車、ロボット工学などの実世界のドメインでは、不完全に観測された情報が与えられた場合リアルタイムの決定が必要
StarCraftと同様に、多くのアプリケーションには、サイクルまたは悪用可能な弱点を含む複雑な戦略があり、エージェントを現実世界に展開すると予期しない戦略または複雑なエッジケースに遭遇する場合がある
StarCraft IIでのAlphaStarの成功は、汎用の機械学習アルゴリズムが実際の複雑な問題に大きな影響を与える可能性があることを示唆している

本文は以上です。
次回からMethodsを読んでいきます。
(続く)