TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-21から1日間の記事一覧

Gumbel AlphaZeroの論文を読む その9(方策の学習)

前回は、内部ノードの行動選択について解説した。 今回は、方策の学習方法について解説する。AlphaZeroは、探索後のルートアクションの「訪問回数」に基づいて方策ネットワークを更新する。 しかし、この方法は、特にシミュレーション回数が少ない場合には方…

Gumbel AlphaZeroの論文を読む その8(内部ノードの行動選択)

前回はルートノードの行動選択に使用されている逐次的半減法(Sequential Halving)について解説した。 今回は、内部ノード(非ルートノード)の行動選択について解説する。AlphaZeroでは、内部ノード(非ルートノード)でも、ルートノードと同じPUCTアルゴリズ…