第6回電竜戦TSEC指定局面と香落ち戦結果報告

今週末の6/28に開催された第6回電竜戦TSEC指定局面と香落ち戦に参加しました。今大会は、指定局面戦と、香落ち戦の2部構成となっていました。前年までは、賞金も少なく将棋AI開発者のお祭り的なイベントでしたが、今回大会は賞金が上がり、本戦と同じくら…

2025-06-22

Gumbel AlphaZeroの論文を読むその１０（ルートノードでの行動選択の実装）

Gumbel AlphaZero

その６とその７で解説した、ルートノードでの行動選択について、公式の実装を確認する。ルートノードの行動選択その５で解説したgumbel_muzero_root_action_selectionを再掲する。 def gumbel_muzero_root_action_selection( rng_key: chex.PRNGKey, tree:…

2025-06-21

Gumbel AlphaZeroの論文を読むその９（方策の学習）

Gumbel AlphaZero

前回は、内部ノードの行動選択について解説した。今回は、方策の学習方法について解説する。AlphaZeroは、探索後のルートアクションの「訪問回数」に基づいて方策ネットワークを更新する。しかし、この方法は、特にシミュレーション回数が少ない場合には方…

2025-06-21

Gumbel AlphaZeroの論文を読むその８（内部ノードの行動選択）

Gumbel AlphaZero

前回はルートノードの行動選択に使用されている逐次的半減法（Sequential Halving）について解説した。今回は、内部ノード(非ルートノード)の行動選択について解説する。AlphaZeroでは、内部ノード(非ルートノード)でも、ルートノードと同じPUCTアルゴリズ…

2025-06-17

Gumbel AlphaZeroの論文を読むその７（逐次的半減法（Sequential Halving））

Gumbel AlphaZero

AlphaZeroの探索は、MCTSで、行動選択にはPUCTが使用されている。 PUCTのベースとなるUCB1は、累積後悔を最小化するように設計されている。一方、Gumbel AlphaZeroでは、行動選択に逐次的半減法（Sequential Halving）が使用される。逐次的半減法は、最終的…