dlshogiの学習時の自己対局での先手勝率

dlshogi コンピュータ将棋

少し前にdlshogiの先手勝率について調べた。今回は、dlshogiの学習時の自己対局での先手勝率について調べた。開始局面現在、dlshogiの自己対局は、floodgateの16手目までの出現頻度が99パーセンタイル以上の局面を初期局面集として、そこからさらに16手MC…

2021-09-20

互角局面集作成スクリプト

コンピュータ将棋

勝率測定などに「たややん互角局面集」を使わせてもらっている。ただ、抽出条件の「36手目の局面まで、全ての指し手について評価値が±100以内となっている対局のみ」だと、dlshogiの棋譜が除外されてしまう点が気になっていた。 dlshogiは、開始局面で160付…

2021-09-13

水匠4とdlshogiのNPSの比較

コンピュータ将棋 dlshogi

ディープラーニング系の将棋AIは、従来の将棋AIと比べてNPSが低くても強いという特徴がある。 NPSがどれくらい違うのか質問を受けることがあるので、測定を行った。 NPSのカウント方法の違いやねうら王(元はStockfishのソース)のNPSは、探索中にdo_moveを行…

2021-07-18

第2回電竜戦TSEC 結果報告

dlshogi コンピュータ将棋電竜戦

7/17~18にかけて実施された第2回電竜戦TSECにdlshogiというソフトで参加しました。チームとしてはGCT電竜でも参加しています。第2回世界将棋AI 電竜戦TSEC -中継サイトファイナルリーグとB級リーグに分かれて実施されて、7/3に行われた予選で上位2チーム…

2021-07-10

cshogiにWebアプリを追加

cshogi コンピュータ将棋

開発しているPythonの高速な将棋ライブラリcshogiに、ブラウザでUSIエンジン同士の対局が行える機能を追加した。 python -m cshogi.web.app --engine1 E:\game\shogi\gikou2_win\gikou.exe --engine2 E:\game\shogi\apery_wcsc28\bin\apery_wcsc28_bmi2.exe …

2021-05-31

dlshogiをPyPIに登録

dlshogi コンピュータ将棋

今までdlshogiの学習を行うために、python環境を作成して、boostをインストールして、C++からPythonモジュール(cppshogi)をビルドしてという手順が必要だったが、pipコマンドでインストールできるようにPyPIに登録した。 pip install dlshogiアップデートの…

2021-05-25

将棋AIの進捗その57（SWAの修正）

dlshogi コンピュータ将棋

dlshogiの学習では、SWA(Stochastic Weight Averaging)を導入している。今までは、1世代学習するごとに、平均化した重みを出力して、次の世代ではその重みを使用して学習していた。しかし、SWAは通常複数エポックに渡って平均化してから、最後に平均化した…

2021-05-23

将棋AI実験ノート：自己対局時のノードの再利用

dlshogi コンピュータ将棋

以前に、dlshogiの自己対局でノードの再利用を行うと、テスト損失が上昇する（過学習する）という問題が起きたことを書いた。方策の分布を学習するようにしたため、問題も起きにくくなっている可能性があるので、ノードの再利用（ルートノードはクリア）を行…

2021-05-14

将棋AI実験ノート：方策の学習に温度パラメータを導入

dlshogi コンピュータ将棋

以前にdlshogiで方策の分布を学習できるようにしたが、方策の分布を学習したモデルで対局すると、指し手のみを学習したモデルよりも弱くなるという問題が起きている。温度パラメータの調整である程度強くできたが、指し手のみを学習したモデルには及んでい…

2021-05-09

dlshogiの学習部のリファクタリングと各手法の精度比較

dlshogi コンピュータ将棋

世界コンピュータ選手権も終わったので、feature/hcpe3やfeature/hcpe3_averageに分かれていたブランチをmasterに統合して整理した。リファクタリング重複局面の平均化や、評価値の補正をオプション(それぞれ--use_averate、--use_evalfix)で有効/無効化で…

2021-05-06

将棋AI実験ノート：自己対局の評価値の補正

dlshogi コンピュータ将棋

Discordで、評価値と勝率を変換する際の以下のシグモイド関数の係数aは、dlshogiはelmo_for_learnの自己対局から求めた756.0864962951762という値を使用しているが、floodgateの棋譜などを学習する場合はもっと低い値になるので補正すべきというやり取りがあ…

2021-04-17

将棋AIの実験ノート：重複局面の平均を学習

dlshogi コンピュータ将棋

dlshogiの自己対局で生成したデータを学習すると、方策損失がNaNになるというissueをもらった。自己対局棋譜を用いるとPolicyのlossがNaNになる · Issue #44 · TadaoYamaoka/DeepLearningShogi · GitHub 原因実際にデータをもらって、調査したところ、強化…

2021-04-06

cshogiにリーグ戦モードを追加

cshogi コンピュータ将棋

プログラムの修正やモデルを学習した後の強さの計測に変更前後の自己対戦のみだと、系統が違うソフトに対して強くなっていないことがあるため、基準となるソフトを加えたリーグ戦で確認を行っている。連続対局には、cshogiを使用して、PGNファイルを出力して…

2021-04-05

将棋AIの実験ノート：方策の分布を学習すると探索パラメータの調整が必要になる

dlshogi コンピュータ将棋

以前に方策の分布を学習することで、Actor-Criticで学習するよりも精度が上がることを確かめた。 dlshogiの強化学習でも、方策の分布を学習するように移行した。しかし、テストデータに対する精度は上がるが、実際に対局すると弱くなっているという問題が発…

2021-03-27

将棋AIの実験ノート：AVX対応

dlshogi コンピュータ将棋

コンピュータチェスのCeresでは、PUCTによるノード選択の処理をAVXを使って高速化している。これは、Ceres独自の「parallelized descent algorithm」（並列降下アルゴリズム）と合わせて使用することで、効果を発揮するもののようだ。Ceresで実際にどれくら…

2021-03-18

将棋AIの実験ノート：方策の分布を学習その３

dlshogi コンピュータ将棋

前回の続き。 dlshogiの強化学習で、方策の分布を含む棋譜を生成し、そのデータを用いてモデルの学習を行い、方策の分布の有無による精度の違いを検証した。棋譜生成 dlshogiの自己対局で、200万局面(29315棋譜)を生成した。学習条件 Resnet10ブロック、活…

2021-03-16

将棋AIの実験ノート：方策の分布を学習その２

dlshogi コンピュータ将棋

以前に、指し手を学習するより、方策の分布を学習した方が、方策の精度が上がるということを書いた。しかし、現在、dlshogiの強化学習で生成している教師局面フォーマット(hcpe)では、方策の分布を記録していない。そこで、方策の分布を出力できるように、…

2021-02-28

将棋AIの進捗その56（データローダーの並列化）

dlshogi コンピュータ将棋

dlshogiのモデルの訓練に使用しているPythonスクリプトは、ベタなforループで記述しており、ミニバッチ作成部分と、ニューラルネットワークの学習の処理をシーケンシャルに実行しており並列化は行っていなかった。ミニバッチデータの作成は、盤面から入力特…

2021-02-27

AobaZeroの棋譜の統計情報

コンピュータ将棋

AobaZeroの棋譜を利用するにあたり、統計的な傾向を把握しておきたいと思い調べてみた。調査範囲 arch000012000000.csa.xz ～ arch000026050000.csa.xzの棋譜を調べた。 1ファイル当たり1万棋譜含まれ、棋譜数は合計で14,050,000になる。手数手数を10手間…

2021-02-25

将棋AIの実験ノート：初期局面集の優先順位付きサンプリング

dlshogi コンピュータ将棋

深層強化学習の手法に、Prioritized experience replay (PER)（優先順位付き経験再生）という方法がある。リプレイバッファに蓄積した経験データに優先順位を付けて、優先順位が高いほどより多くサンプリングする手法だ。優先順位の尺度には、TD誤差が用い…

2021-02-12

将棋AIの実験ノート：Fixup Initialization

dlshogi コンピュータ将棋

深いResNetの訓練では、勾配爆発が起きる。そのため、Batch Normalizationを使用するのが一般的である。Leela Chess Zeroでは、Batch Normalizationの統計情報に関連する問題が報告されている。 Pawn promotion issues in T40 · Issue #784 · LeelaChessZero…

2021-02-11

将棋AIの実験ノート：最大手数で引き分けの局面を除外

dlshogi コンピュータ将棋

dlshogiの強化学習では、最大手数(320手)に達した局面の価値を0.5として学習対象としている。補助タスクの学習の際に、教師データを調べていた際に、あと数手で詰みの局面で引き分けになっている局面が含まれていることに気付いた（これまであまりチェックし…

2021-02-09

将棋AIの進捗その55（勾配クリッピング）

dlshogi コンピュータ将棋

dlshogiを初期値から学習を開始すると、lossがinfやnanになる場合がある。初期値からの学習以外でも勾配爆発を防ぐために、勾配クリッピングのオプションを追加した。KataGoでも勾配クリッピングを追加している。学習が安定してからは特に効果はないようだ…

2021-02-07

将棋AIの実験ノート：方策の分布を学習

dlshogi コンピュータ将棋強化学習

一般的な方策勾配法では、選択した行動aに対して、損失を計算するが、 AlphaZeroでは、方策の損失は、探索から求めた方策の確率分布を使用している。 dlshogiでは、前者をベースにしたActor-Criticで更新を行っている。後者の確率分布を学習する場合と、ど…

2021-02-02

将棋AIの実験ノート：オフポリシー補正

dlshogi コンピュータ将棋強化学習

強化学習において、サンプル効率が低いという課題の対処として、リプレイバッファを使用して過去の方策で生成したデータも学習に使用するということが行われている。一般的に挙動方策（経験を蓄積する際の方策）と推定方策（学習する方策）が異なる場合をオ…

2021-01-29

将棋AIの実験ノート：Attention Branch Network

コンピュータ将棋 DeepLearning

以前に、Mask-Attentionについて記事にしたが、同様の手法にAttention Branch Network(ABN)がある。 ABNは、Attention Branchの損失も計算して訓練する点がMask-Attentionと異なる。ここでは、ABNをdlshogiのネットワークに適用して、AIが注視している座標…

2021-01-09

【dlshogi】Multi PV対応版の実行ファイル公開

dlshogi コンピュータ将棋

dlshogiのMulti PV対応版の実行ファイルを公開します。 Release Multi PV対応版 · TadaoYamaoka/DeepLearningShogi · GitHub実行ファイルのみの公開ですので、世界将棋AI 電竜戦バージョン（「GCT電竜」同梱）に上書きしてください。また、探索部の改良によ…