TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-21から1日間の記事一覧

Gumbel AlphaZeroの論文を読むその９（方策の学習）

Gumbel AlphaZero

前回は、内部ノードの行動選択について解説した。今回は、方策の学習方法について解説する。AlphaZeroは、探索後のルートアクションの「訪問回数」に基づいて方策ネットワークを更新する。しかし、この方法は、特にシミュレーション回数が少ない場合には方…

Gumbel AlphaZeroの論文を読むその８（内部ノードの行動選択）

Gumbel AlphaZero

前回はルートノードの行動選択に使用されている逐次的半減法（Sequential Halving）について解説した。今回は、内部ノード(非ルートノード)の行動選択について解説する。AlphaZeroでは、内部ノード(非ルートノード)でも、ルートノードと同じPUCTアルゴリズ…