TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-14から1日間の記事一覧

Gumbel AlphaZeroの論文を読む その5(行動選択)

前回からだいぶ時間が空いたが、Gumbel AlphaZeroの解説を再開する。 今回は、行動選択について解説する。 行動選択は、ルートノードと内部ノード(非ルートノード)で異なる方法を使用する。 ルートノードでは、Gumbel-Top-kトリックを用いて、方策改善を行…