分析
エージェントセット
- 検証エージェント:メインエージェントのみを使用し、エクスプロイターを使用せずに訓練された17の戦略セットに対するリーグの堅牢性を検証し、zを手で精選された興味深い戦略セット(例:キャノンラッシュや初期飛行ユニット)に修正した。
- アブレーションテストエージェント:アブレーションテストエージェントには、検証エージェント、および完全なリーグトレーニングによって作成された最初の(つまり弱い)20のメインおよび20のリーグエクスプロイトプロトスエージェントが含まれる。
図で使用されるメトリック
- Eloレーティング:リーグの内部Eloレーティングを計算するために、組み込みのボットを追加し、それを使用して次のモデルでEloを推定した。
- ここで、とは両方のプレイヤーのEloレーティングである。
- Eloレーティングには固有の絶対スケールがないため、組み込みのEliteボットのレーティングを0に設定することにより、Eloレーティングを接地する。
AlphaStarの一般性
- StarCraftの複雑さとゲーム理論上の課題に対処するために、AlphaStarは、ニューラルネットワークアーキテクチャ、模倣学習、強化学習、およびマルチエージェント学習のための新規および既存の汎用技術の組み合わせを使用する。
- これらの手法とその組み合わせは広く適用できる。
ニューラルネットワークアーキテクチャコンポーネント
- 新しいスキャッター接続を含むニューラルネットワークアーキテクチャコンポーネントは、一般に、観測がStarCraftに存在する画像、リスト、およびセットの組み合わせで構成されるすべてのドメインに適用できる。
行動空間の定義
模倣学習
コードおよびデータの可用性と声明
プロフェッショナルプレーヤーの声明
Dario “TLO” Wünschの声明
- AlphaStarに設定されている制限は、1月の最初のショーマッチとは非常に異なると感じる。
- AlphaStarには優れた正確な制御機能があるが、超人間的な感覚はない。
- 人間が理論的に達成できないレベルではない。
- 人間よりもいくつかの面で優れており、他の面でも悪化しているが、もちろんAlphaStarと人間のプレイヤーの間には避けられない違いがある。
リプレイデータ
- AlphaStarがオンラインでプレイしたすべてのゲームはファイルreplays.zip(Supplementary Data Replays)にあり、Battle.netの実験の生データはbnet.json(Supplementary Data Battle.net)にある。
コード
- StarCraft II環境は、BlizzardとDeepMindによって2017年にオープンソース化された。
- 模倣学習に使用される人間のリプレイはすべて、https://github.com/Blizzard/s2client-protoにある。
- AlphaStarの教師あり学習、強化学習、およびマルチエージェント学習コンポーネントの擬似コードは、ファイルpseudocode.zip(Supplementary Data Pseudocode)にある。
- すべてのニューラルアーキテクチャの詳細とハイパーパラメータは、detailed-architecture.txt(Supplementary Data Architecture)ファイルにある。
感想
全体を読んでみて、個人的にポイントと思ったのは以下の点です。
- 不完全情報ゲームのサイクル問題を回避するためリーグマッチによるマルチエージェントで学習している
- リーグの対戦相手の選択を優先順位付きFSPで効率化している
- 複雑な長期戦略を強化学習では学習できない
- そのため人間のリプレイを利用する
- ニューラルネットワークはLSTMを使用する
- 入力は、トランスフォーマーでユニットを埋め込み表現にしている
- 埋め込み表現にしたユニットを、畳み込みにスキャッター接続することで空間情報を保持して入力する
- 行動の出力は、複数のアクション引数をネットワーク構成で表現している
- 引数の出力に応じて、ポインターネットワークやアテンションが使用されている
- 強化学習アルゴリズムは、アクタークリティックがベース
- 方策の学習にはリプレイバッファを使用してV-Traceで方策オフで学習する
- 加えてUPGOで自己模倣学習を行う
- 価値の学習はTD(λ)を使用し方策オフの補正は行わない
- 対戦条件は、操作頻度やカメラ操作を人間の条件に近づけて公平にしている
AlphaStarの論文を読む - TadaoYamaokaの開発日記
AlphaStarの論文を読む その2 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その3 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その4 - TadaoYamaokaの開発日記
AlphaStarの論文を読む その5(アーキテクチャ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その6(アーキテクチャその2) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その7(アーキテクチャその3) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その8(教師あり学習、強化学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その9(マルチエージェント学習) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その10(リーグ構成) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その11(インフラ) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その12(評価) - TadaoYamaokaの開発日記
AlphaStarの論文を読む その13(分析、AlphaStarの一般性) - TadaoYamaokaの開発日記