Gumbel AlphaZeroの論文を読むその４

Gumbel AlphaZero

前回の続き探索の内部処理探索の処理は、searchに書かれている。引数 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: ルートノードの初期状態で、事前確率、価値、埋め込みを含む。 recurrent_fn: 葉ノードおよ…

2024-11-17

Gumbel AlphaZeroの論文を読むその３

Gumbel AlphaZero

前回に続き、examples/visualization_demo.py のソースを解説する。探索探索の処理は、gumbel_muzero_policyに書かれている。引数は、以下の通り。 params: ルートおよび再帰関数に渡されるパラメータ。 rng_key: 乱数生成器の状態。 root: (prior_logits,…

2024-11-16

Gumbel AlphaZeroの論文を読むその２

Gumbel AlphaZero

前回、Gumbel AlphaZeroの論文の概要と、公式実装の環境構築について記載した。今回は、公式実装のサンプルプログラム examples/visualization_demo.py のソースを調べながらGumbel AlphaZeroのアルゴリズムを理解する。 visualization_demo.pyの概要 visual…

2024-11-14

Gumbel AlphaZeroの論文を読む

Gumbel AlphaZero

dlshogiにGumbel AlphaZeroの強化学習を導入したいと思って、Gumbel AlphaZeroの論文を読んでいるが、理論がなかなか難しいため公式実装を確認しながら理解する。 Gumbel AlphaZero AlphaZeroの強化学習は、自己対局でUCTで探索した際の訪問回数を目標の確率…