2025-06-17から1日間の記事一覧

2025-06-17

Gumbel AlphaZeroの論文を読むその７（逐次的半減法（Sequential Halving））

AlphaZeroの探索は、MCTSで、行動選択にはPUCTが使用されている。 PUCTのベースとなるUCB1は、累積後悔を最小化するように設計されている。一方、Gumbel AlphaZeroでは、行動選択に逐次的半減法（Sequential Halving）が使用される。逐次的半減法は、最終的…

TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-17から1日間の記事一覧

Gumbel AlphaZeroの論文を読むその７（逐次的半減法（Sequential Halving））

2025-06-17から1日間の記事一覧

Gumbel AlphaZeroの論文を読む その７（逐次的半減法（Sequential Halving））

Gumbel AlphaZeroの論文を読むその７（逐次的半減法（Sequential Halving））