MuZeroの論文を読むその３（結果）

MuZero 強化学習

結果 MuZeroアルゴリズムを、挑戦的なプランニング問題のベンチマークとしての古典的なボードゲーム囲碁、チェス、将棋、および視覚的に複雑なRLドメインのベンチマークとしてAtari Learning Environmentの57のゲームすべてに適用した。測定条件それぞれの…

2019-11-30

リバーシ(オセロ)で深層強化学習

creversi リバーシオセロ強化学習

先日作成した高速なリバーシライブラリを使って、深層強化学習のアルゴリズムをいろいろ試してみたいと思っている。 DQNの実装将棋でDQNによる強化学習を試したときはまったく学習しなかったので、まずは教師ありでDQNのネットワークが学習できるか試すこと…

2019-11-30

AlphaStarの論文を読むその１２（評価）

AlphaStar 強化学習

評価 AlphaStar Battle.netの評価 AlphaStarエージェントは、StarCraft IIバランスパッチ4.9.3で、MMRレーティングに基づくBlizzardのオンラインマッチメイキングシステムBattle.netで人間に対して評価された。 AlphaStar Finalは、グランドマスターレベル（…

2019-11-30

AlphaStarの論文を読むその１１（インフラ）

AlphaStar 強化学習

インフラリーグを訓練するために、多数のStarCraft II対戦を並行して実行し、それらのゲームのデータに基づいてエージェントのパラメータを更新する。これを管理するために、さまざまなタイプの分散ワーカーで非常にスケーラブルな訓練セットアップを開発…

2019-11-30

AlphaStarの論文を読むその１０（リーグ構成）

AlphaStar 強化学習

リーグ構成(Populating the League) 訓練中、新しいプレイヤーを作成するためにスナップショットが作成されたときの訓練対象の対戦相手の分布と、教師ありパラメーターにリセットされる確率のみが異なる3つのエージェントタイプを使用した。メインエージェ…

2019-11-28

AlphaStarの論文を読むその９（マルチエージェント学習）

AlphaStar 強化学習

マルチエージェント学習リーグトレーニングはマルチエージェント強化学習アルゴリズムであり、セルフプレイトレーニング中によく発生するサイクルに対処し、多様な戦略を統合するために設計されている。訓練中に、エージェント（RLアルゴリズムによって訓…

2019-11-24

MuZeroの論文を読むその２（MuZeroアルゴリズム）

MuZero 強化学習

続きです。 MuZeroアルゴリズム MuZeroアルゴリズムについて詳しく説明する。予測は、各タイムステップtで、ステップのそれぞれについて、過去の観測および将来の行動を条件とするパラメーターを使用したモデルによって行われる。モデルは、3つの将来の量…

2019-11-23

AlphaStarの論文を読むその８（教師あり学習、強化学習）

AlphaStar 強化学習

今回はMethodsの教師あり学習と強化学習についてです。教師あり学習各エージェントは、人間の行動を模倣するために、リプレイから教師付き学習を通じて最初に訓練される。教師あり学習は、エージェントの初期化と多様な探索の維持の両方に使用される。こ…

2019-11-21

MuZeroの論文を読む（概要、導入、先行研究）

MuZero 強化学習

MuZeroの論文を読んでいきます。基本的にだらだら訳していくだけです。途中で感想を書いていきます。概要プランニング能力を備えたエージェントを構築することは、人工知能の追求における主な課題の1つである。ツリーベースのプランニング方法は、完全…

2019-11-21

AlphaStarの論文を読むその７（アーキテクチャその３）

AlphaStar

アーキテクチャ詳細の続きです。ベースラインと損失に関する部分です。勝敗ベースライン(Winloss Baseline) 入力：prev_state, scalar_features, opponent_observations, cumulative_score, action_type, lstm_output 出力： winloss_baseline : 「action_…

2019-11-17

AlphaStarの論文を読むその６（アーキテクチャその２）

AlphaStar

アーキテクチャ詳細の続きです。コア(Core) 入力：prev_state, embedded_entity, embedded_spatial, embedded_scalar 出力： next_state : 次のステップのLSTM状態 lstm_output : LSTMの出力コアは、「embedded_entity」、「embedded_spatial」、および「e…

2019-11-15

高速なPythonのリバーシ(オセロ)ライブラリ

リバーシ C++ SIMD Python

将棋で強化学習のアルゴリズムをいろいろ試そうとしたが、DQNが全く学習しないので、もう少し簡単なゲームを先に試そうと思う。ということで、リバーシ(オセロ)で試すことにした。Pythonで使えるリバーシのライブラリがないか探したが良さそうなのが見つか…

2019-11-14

AlphaStarの論文を読むその５（アーキテクチャ）

しばらく空きましたが、続きです。アーキテクチャは長いので途中までです。アーキテクチャ AlphaStarの方策は関数で、以前のすべての観測とアクションおよび𝑧（戦略統計を表す）を現在のステップの行動の確率分布にマッピングする拡張データ表1 | エージ…

2019-11-03

AlphaStarの論文を読むその４

AlphaStar

続きです。前回までで論文の本文を紹介しました。今回からMethodsを読んでいきます。本文と内容の重複もあります。ほぼだらだらと訳しただけです。ゲームとインターフェイスゲーム環境 StarCraftは、SF世界で行われるリアルタイム戦略ゲーム 1998年にBli…

2019-11-02

AlphaStarの論文を読むその３

AlphaStar

続きです。本文の残りの部分です。実験による評価対戦条件公式オンラインマッチメイキングシステムBattle.netの制限なし条件で評価した 3つのメインエージェントTerran、Protoss、Zergを評価各エージェントは、訓練中に3つの異なるスナップショットで評…

2019-11-01

AlphaStarの論文を読むその２

AlphaStar

昨日の続きです。人間のデータの重要性 StarCraftの主な課題の1つは、新しい戦略を発見すること一度、地上ユニットの局所戦略を学んだ後、航空ユニットを単純に使用するとパフォーマンスが低下する航空ユニットがその局所戦略を効果的に利用する、数千ス…

2019-11-01

AlphaStarの論文を読む

AlphaStar

Natureで発表されたAlphaStarの論文を読んでいきます。無料で読めるPDFは、DeepMindのブログからダウンロードできます。PythonとTensorFlowによる疑似コードも公開されており、Supplementary Dataからダウンロードできます。Methodも含めると結構なボリュー…

TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2019-11-01から1ヶ月間の記事一覧

MuZeroの論文を読むその３（結果）

リバーシ(オセロ)で深層強化学習

AlphaStarの論文を読むその１２（評価）

AlphaStarの論文を読むその１１（インフラ）

AlphaStarの論文を読むその１０（リーグ構成）

AlphaStarの論文を読むその９（マルチエージェント学習）

MuZeroの論文を読むその２（MuZeroアルゴリズム）

AlphaStarの論文を読むその８（教師あり学習、強化学習）

MuZeroの論文を読む（概要、導入、先行研究）

AlphaStarの論文を読むその７（アーキテクチャその３）

AlphaStarの論文を読むその６（アーキテクチャその２）

高速なPythonのリバーシ(オセロ)ライブラリ

AlphaStarの論文を読むその５（アーキテクチャ）

AlphaStarの論文を読むその４

AlphaStarの論文を読むその３

AlphaStarの論文を読むその２

AlphaStarの論文を読む