TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

AlphaStar

AlphaStarの論文を読む その13(分析、AlphaStarの一般性)

分析 エージェントセット 検証エージェント:メインエージェントのみを使用し、エクスプロイターを使用せずに訓練された17の戦略セットに対するリーグの堅牢性を検証し、zを手で精選された興味深い戦略セット(例:キャノンラッシュや初期飛行ユニット)に修…

AlphaStarの論文を読む その12(評価)

評価 AlphaStar Battle.netの評価 AlphaStarエージェントは、StarCraft IIバランスパッチ4.9.3で、MMRレーティングに基づくBlizzardのオンラインマッチメイキングシステムBattle.netで人間に対して評価された。 AlphaStar Finalは、グランドマスターレベル(…

AlphaStarの論文を読む その11(インフラ)

インフラ リーグを訓練するために、多数のStarCraft II対戦を並行して実行し、それらのゲームのデータに基づいてエージェントのパラメータを更新する。 これを管理するために、さまざまなタイプの分散ワーカーで非常にスケーラブルな訓練セットアップを開発…

AlphaStarの論文を読む その10(リーグ構成)

リーグ構成(Populating the League) 訓練中、新しいプレイヤーを作成するためにスナップショットが作成されたときの訓練対象の対戦相手の分布と、教師ありパラメーターにリセットされる確率のみが異なる3つのエージェントタイプを使用した。 メインエージェ…

AlphaStarの論文を読む その9(マルチエージェント学習)

マルチエージェント学習 リーグトレーニングはマルチエージェント強化学習アルゴリズムであり、セルフプレイトレーニング中によく発生するサイクルに対処し、多様な戦略を統合するために設計されている。 訓練中に、エージェント(RLアルゴリズムによって訓…

AlphaStarの論文を読む その8(教師あり学習、強化学習)

今回はMethodsの教師あり学習と強化学習についてです。 教師あり学習 各エージェントは、人間の行動を模倣するために、リプレイから教師付き学習を通じて最初に訓練される。 教師あり学習は、エージェントの初期化と多様な探索の維持の両方に使用される。 こ…

AlphaStarの論文を読む その7(アーキテクチャその3)

アーキテクチャ詳細の続きです。 ベースラインと損失に関する部分です。 勝敗ベースライン(Winloss Baseline) 入力:prev_state, scalar_features, opponent_observations, cumulative_score, action_type, lstm_output 出力: winloss_baseline : 「action_…

AlphaStarの論文を読む その6(アーキテクチャその2)

アーキテクチャ詳細の続きです。 コア(Core) 入力:prev_state, embedded_entity, embedded_spatial, embedded_scalar 出力: next_state : 次のステップのLSTM状態 lstm_output : LSTMの出力 コアは、「embedded_entity」、「embedded_spatial」、および「e…

AlphaStarの論文を読む その4

続きです。前回までで論文の本文を紹介しました。 今回からMethodsを読んでいきます。本文と内容の重複もあります。 ほぼだらだらと訳しただけです。 ゲームとインターフェイス ゲーム環境 StarCraftは、SF世界で行われるリアルタイム戦略ゲーム 1998年にBli…

AlphaStarの論文を読む その3

続きです。本文の残りの部分です。 実験による評価 対戦条件 公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した 3つのメインエージェントTerran、Protoss、Zergを評価 各エージェントは、訓練中に3つの異なるスナップショットで評…

AlphaStarの論文を読む その2

昨日の続きです。 人間のデータの重要性 StarCraftの主な課題の1つは、新しい戦略を発見すること 一度、地上ユニットの局所戦略を学んだ後、航空ユニットを単純に使用するとパフォーマンスが低下する 航空ユニットがその局所戦略を効果的に利用する、数千ス…

AlphaStarの論文を読む

Natureで発表されたAlphaStarの論文を読んでいきます。 無料で読めるPDFは、DeepMindのブログからダウンロードできます。PythonとTensorFlowによる疑似コードも公開されており、Supplementary Dataからダウンロードできます。Methodも含めると結構なボリュー…

AlphaStarについて

次回の技術書典に、参加している強化学習の勉強会のメンバで合同誌として頒布を行うべく執筆を行っている。 自分は、ネタとしてAlphaStarについて選んだのだが、書く内容がまとまらないのでブログにもアウトプットすることにする。 AlphaStarについて Google…