将棋AIの進捗その43(探索パラメータ調整)

dlshogi コンピュータ将棋

未訪問ノードのQの初期値の変更と、FPU reductionを導入してから、探索パラメータの再調整を行っていなかったので、Optunaで最適化を行った。FPU reductionはKataGoを参考に、ルートノードは0としていたが、パラメータにして調整するようにした。また、Leel…

2020-04-28

usiToCsa.rbのdlshogi対応

コンピュータ将棋

世界コンピュータ将棋オンライン大会の対戦環境をテストしていて、クライアントの将棋所からssh経由でサーバでdlshogiを実行していたが、回線が不安定なため途中で切れることがあったので、サーバから直接接続する方式に変更することにした。dlshogiは標準入…

2020-04-28

Agent57: Outperforming the Atari Human Benchmarkを読むその９

Atari57 強化学習 Agent57

付録B B.外発的-内発的分解内発的に動機付けられたエージェントの場合、報酬関数は、固有の報酬と外部の報酬の線形結合である。価値の反復スキームを使用して、最適な状態行動価値関数を計算できる。ここで、は任意に初期化できる。ここで、別々の内発的…

2020-04-22

Agent57: Outperforming the Atari Human Benchmarkを読むその８

強化学習 Atari57 Agent57

付録も読んでいきます。数式多めです。ほぼ自分のメモのために訳しています。付録A MDPの背景マルコフ決定プロセス（MDP）はタプルであり、Xは状態空間、Aは行動空間、Pは各状態行動タプルを状態上の確率分布（行動aを選択してxから状態yに遷移する確率を…

2020-04-19

将棋AIの進捗その42(TensorRT対応)

dlshogi TensorRT コンピュータ将棋

TensorRTがdlshogiのDNNの推論においても効果があることがわかったので、TensorRTをdlshogiに組み込んだ。 Tensorコアを搭載したGPUでは、以前のcuDNN版に比べて推論が大幅に高速化される。実装 ONNXから読み込んだネットワークのビルドには数十秒近く時間…

2020-04-17

Agent57: Outperforming the Atari Human Benchmarkを読むその７

強化学習 Agent57

結論 57のすべてのAtariゲームで、人間のベンチマークを超えるパフォーマンスを持つ最初の深層強化学習エージェントを紹介した。エージェントは、そのような多様なゲームセット（探索と活用、および長期的な信用割り当て）でパフォーマンスを発揮するために…

2020-04-15

Agent57: Outperforming the Atari Human Benchmarkを読むその６

強化学習 Agent57

Backprop Through Timeのウィンドウサイズこの節では、backprop through timeのウィンドウサイズを使用することの影響を分析する。より具体的には、NGUまたは提案する改善を行わないことでその効果を確認するために、基本アルゴリズムR2D2への影響を分析す…

2020-04-14

TensorRTのパフォーマンス測定

TensorRT コンピュータ将棋 dlshogi

先日試したTensorRTをdlshogiのネットワークの推論で試せるようにしたので、パフォーマンスを測定してみた。バッチサイズを可変にして、プロファイル最適化も行った。測定条件 floodgateの棋譜からサンプリングした10万局面の推論時間を測定する。バッチサ…

2020-04-14

Agent57: Outperforming the Atari Human Benchmarkを読むその５

強化学習 Agent57

状態行動価値関数のパラメーター化まず、「ランダムコイン」と呼ばれるミニマリズムグリッドワールド環境に対する状態行動価値関数のパラメーター化の影響を評価する。これは、サイズが15×15の空の部屋で構成され、各エピソードの開始時にコインとエージェ…

2020-04-13

Agent57: Outperforming the Atari Human Benchmarkを読むその４

強化学習 Agent57

実験この章では、まず実験のセットアップについて説明する。 NGUに続いて、Agent57はサイズN = 32の係数のファミリーを使用する。割引の選択はNGUのそれとは異なり、0.99から0.9999の範囲のより高い値を可能にする（詳細については付録G.1を参照）。メタ…

2020-04-12

将棋AIの進捗その41(1サイクルあたりの生成局面数)

コンピュータ将棋 dlshogi

dlshogiの今の10ブロックの192フィルタのモデルは、2018年6月から学習を開始して、何度かモデルの精度が飽和して強くならなくなったが、そのたびに新しい手動を導入して現在まで継続して強くできている。201サイクル目からはリーグ戦を導入して、218サイクル…

2020-04-12

WindowsでTensorRTを動かす

TensorRT

ねね将棋がTensorRTを使用しているということで、dlshogiでもTensorRTが使えないかと思って調べている。 TensorRTのドキュメントを読むと、JetsonやTeslaしか使えないように見えるが、リリースノートにGeForceの記述もあるので、GeForceでも動作するようであ…

2020-04-09

将棋AIの進捗その40(マルチGPUの性能)

コンピュータ将棋 dlshogi

以前のdlshogiは、マルチGPUで動かした場合、4GPUまでは線形にNPSが伸びるがそれ以上GPUを増やしてもNPSが伸びなかった。ハッシュテーブルのロックにボトルネックがありそうだ思っていたので、今回ロックの範囲を修正してマルチGPUでの性能を改善した。ロ…

2020-04-07

Agent57: Outperforming the Atari Human Benchmarkを読むその３

強化学習 Agent57

NGUの改善状態行動価値関数のパラメーター化提案されているアーキテクチャの改善は、次のように状態行動価値関数を分割することである。ここで、とは、それぞれの外部コンポーネントと組み込みコンポーネントである。重みのセットとは、同一のアーキテク…

2020-04-01

Agent57: Outperforming the Atari Human Benchmarkを読むその２

強化学習 Agent57

背景：Never Give Up（NGU） NGU上に構築する2つのアイディア私たちの研究は、2つのアイデアを組み合わせたNGUエージェントの上に構築される。 1つは、好奇心主導型の探索、2つ目は、分散型の深層RLエージェント、特にR2D2である。 NGUの報酬 NGUは、探索を…

2020-04-01

Agent57: Outperforming the Atari Human Benchmarkを読む

強化学習 Agent57

DeepMindが発表したAgent57: Outperforming the Atari Human Benchmarkの論文を読んでいきます。Agent57のすべてのゲームで人間のパフォーマンスを上回ったようです。モンテズマリベンジのような長期的な目標を必要とするゲームは強化学習アルゴリズムが苦…

2020-03-14

wxWidgetsをVisual Studio 2019でビルドする

マルチプラットフォームのGUIツールキットであるwxWidgetsをVisual Studio 2019でビルドする方法についてです。ほぼ自分用のメモです。ダウンロード公式ページから最新のソースをダウンロードする。ダウンロードしたソースを適当なフォルダに解凍する。 …

2020-01-27

リバーシ(オセロ)で深層強化学習その７（Prioritized Experience Replay）

強化学習オセロ PyTorch リバーシ

リバーシ(オセロ)で深層強化学習を試すシリーズ、前回からしばらく空いたが、今回はPrioritized Experience Replayを試す。 Prioritized Experience Replay 強化学習では、サンプルの時間依存の相関を弱めるために、サンプルを乱択する経験再生（experience …

2020-01-19

将棋AIの進捗その39(リーグ戦)

dlshogi コンピュータ将棋

年末にCPUを3970Xに変えてから、USIエンジンをリーグに加えた強化学習を行っている。 USIエンジンを各探索スレッドにつき2つ、GPUにつき探索スレッドを3つ、3GPUで探索を行っているので、合計18プロセス起動している。メモリの制約が厳しくこれ以上は起動で…

2020-01-18

将棋AIの進捗その38(SWA)

コンピュータ将棋 dlshogi SWA

dlshogiの学習にSWA(Stochastic Weight Averaging)を実装して、測定した。 SWA SWA(Stochastic Weight Averaging)は、一定間隔での重みを平均化することで、ニューラルネットワークのテスト精度を改善するテクニックである。一般的なアンサンブルの手法では…