AlphaStarの論文を読むその１３（分析、AlphaStarの一般性）

AlphaStar 強化学習

分析エージェントセット検証エージェント：メインエージェントのみを使用し、エクスプロイターを使用せずに訓練された17の戦略セットに対するリーグの堅牢性を検証し、zを手で精選された興味深い戦略セット（例：キャノンラッシュや初期飛行ユニット）に修…

2019-11-30

AlphaStarの論文を読むその１２（評価）

AlphaStar 強化学習

評価 AlphaStar Battle.netの評価 AlphaStarエージェントは、StarCraft IIバランスパッチ4.9.3で、MMRレーティングに基づくBlizzardのオンラインマッチメイキングシステムBattle.netで人間に対して評価された。 AlphaStar Finalは、グランドマスターレベル（…

2019-11-30

AlphaStarの論文を読むその１１（インフラ）

AlphaStar 強化学習

インフラリーグを訓練するために、多数のStarCraft II対戦を並行して実行し、それらのゲームのデータに基づいてエージェントのパラメータを更新する。これを管理するために、さまざまなタイプの分散ワーカーで非常にスケーラブルな訓練セットアップを開発…

2019-11-30

AlphaStarの論文を読むその１０（リーグ構成）

AlphaStar 強化学習

リーグ構成(Populating the League) 訓練中、新しいプレイヤーを作成するためにスナップショットが作成されたときの訓練対象の対戦相手の分布と、教師ありパラメーターにリセットされる確率のみが異なる3つのエージェントタイプを使用した。メインエージェ…

2019-11-28

AlphaStarの論文を読むその９（マルチエージェント学習）

AlphaStar 強化学習

マルチエージェント学習リーグトレーニングはマルチエージェント強化学習アルゴリズムであり、セルフプレイトレーニング中によく発生するサイクルに対処し、多様な戦略を統合するために設計されている。訓練中に、エージェント（RLアルゴリズムによって訓…

2019-11-23

AlphaStarの論文を読むその８（教師あり学習、強化学習）

AlphaStar 強化学習

今回はMethodsの教師あり学習と強化学習についてです。教師あり学習各エージェントは、人間の行動を模倣するために、リプレイから教師付き学習を通じて最初に訓練される。教師あり学習は、エージェントの初期化と多様な探索の維持の両方に使用される。こ…

2019-11-21

AlphaStarの論文を読むその７（アーキテクチャその３）

AlphaStar

アーキテクチャ詳細の続きです。ベースラインと損失に関する部分です。勝敗ベースライン(Winloss Baseline) 入力：prev_state, scalar_features, opponent_observations, cumulative_score, action_type, lstm_output 出力： winloss_baseline : 「action_…

2019-11-17

AlphaStarの論文を読むその６（アーキテクチャその２）

AlphaStar

アーキテクチャ詳細の続きです。コア(Core) 入力：prev_state, embedded_entity, embedded_spatial, embedded_scalar 出力： next_state : 次のステップのLSTM状態 lstm_output : LSTMの出力コアは、「embedded_entity」、「embedded_spatial」、および「e…

2019-11-03

AlphaStarの論文を読むその４

AlphaStar

続きです。前回までで論文の本文を紹介しました。今回からMethodsを読んでいきます。本文と内容の重複もあります。ほぼだらだらと訳しただけです。ゲームとインターフェイスゲーム環境 StarCraftは、SF世界で行われるリアルタイム戦略ゲーム 1998年にBli…

2019-11-02

AlphaStarの論文を読むその３

AlphaStar

続きです。本文の残りの部分です。実験による評価対戦条件公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した 3つのメインエージェントTerran、Protoss、Zergを評価各エージェントは、訓練中に3つの異なるスナップショットで評…

2019-11-01

AlphaStarの論文を読むその２

AlphaStar

昨日の続きです。人間のデータの重要性 StarCraftの主な課題の1つは、新しい戦略を発見すること一度、地上ユニットの局所戦略を学んだ後、航空ユニットを単純に使用するとパフォーマンスが低下する航空ユニットがその局所戦略を効果的に利用する、数千ス…

2019-11-01

AlphaStarの論文を読む

AlphaStar

Natureで発表されたAlphaStarの論文を読んでいきます。無料で読めるPDFは、DeepMindのブログからダウンロードできます。PythonとTensorFlowによる疑似コードも公開されており、Supplementary Dataからダウンロードできます。Methodも含めると結構なボリュー…

2019-08-04

AlphaStarについて

AlphaStar

次回の技術書典に、参加している強化学習の勉強会のメンバで合同誌として頒布を行うべく執筆を行っている。自分は、ネタとしてAlphaStarについて選んだのだが、書く内容がまとまらないのでブログにもアウトプットすることにする。 AlphaStarについて Google…

TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

AlphaStar

AlphaStarの論文を読むその１３（分析、AlphaStarの一般性）

AlphaStarの論文を読むその１２（評価）

AlphaStarの論文を読むその１１（インフラ）

AlphaStarの論文を読むその１０（リーグ構成）

AlphaStarの論文を読むその９（マルチエージェント学習）

AlphaStarの論文を読むその８（教師あり学習、強化学習）

AlphaStarの論文を読むその７（アーキテクチャその３）

AlphaStarの論文を読むその６（アーキテクチャその２）

AlphaStarの論文を読むその４

AlphaStarの論文を読むその３

AlphaStarの論文を読むその２

AlphaStarの論文を読む

AlphaStarについて