TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-17から1日間の記事一覧

Gumbel AlphaZeroの論文を読む その7(逐次的半減法(Sequential Halving))

AlphaZeroの探索は、MCTSで、行動選択にはPUCTが使用されている。 PUCTのベースとなるUCB1は、累積後悔を最小化するように設計されている。一方、Gumbel AlphaZeroでは、行動選択に逐次的半減法(Sequential Halving)が使用される。 逐次的半減法は、最終的…