TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2024-11-01から1ヶ月間の記事一覧

Gumbel AlphaZeroの論文を読む その4

前回の続き 探索の内部処理 探索の処理は、searchに書かれている。 引数 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: ルートノードの初期状態で、事前確率、価値、埋め込みを含む。 recurrent_fn: 葉ノードおよ…

Gumbel AlphaZeroの論文を読む その3

前回に続き、examples/visualization_demo.py のソースを解説する。 探索 探索の処理は、gumbel_muzero_policyに書かれている。引数は、以下の通り。 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: (prior_logits,…

Gumbel AlphaZeroの論文を読む その2

前回、Gumbel AlphaZeroの論文の概要と、公式実装の環境構築について記載した。今回は、公式実装のサンプルプログラム examples/visualization_demo.py のソースを調べながらGumbel AlphaZeroのアルゴリズムを理解する。 visualization_demo.pyの概要 visual…

Gumbel AlphaZeroの論文を読む

dlshogiにGumbel AlphaZeroの強化学習を導入したいと思って、Gumbel AlphaZeroの論文を読んでいるが、理論がなかなか難しいため公式実装を確認しながら理解する。 Gumbel AlphaZero AlphaZeroの強化学習は、自己対局でUCTで探索した際の訪問回数を目標の確率…

【dlshogi】方策のみで指した場合のfloodgateでのレーティング

前回、dlshogiの最新モデルで方策のみで連続対局した場合の強さを測定した。 結果、第2回世界将棋AI電竜戦エキシビジョンバージョンと比べて方策がR+395.1だけ強くなっていることわかった。今回は、floodgateに放流して、レーティングを測定した。 測定条件 …

【dlshogi】最新モデルが公開バージョンからどれくらい強くなっているか

前回書いた通り、方策の強さを手軽に測定できるようになったので、公開している第2回世界将棋AI電竜戦エキシビジョンバージョンから最新モデルがどれくらい強くなっているか測定した。以前に、WCSC32版dlshogiと探索ありで比較したときは、互角局面集を使用…

【dlshogi】ラージカーネル+TransformerモデルのPolicy Elo

先日学習したラージカーネル+Transformerモデルの方策のみの強さ(Policy Elo)を測定した。これまで、同一持ち時間や固定ノード数で計測も行ったが、方策のみの連続対局を行うことで、短時間で直接方策の強さを測ることができる。floodgateのテストデータでの…