TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2025-06-15から1日間の記事一覧

Gumbel AlphaZeroの論文を読む その6(Gumbel-Top-kトリック)

従来のAlphaZeroの行動選択は、訪問回数の分布にディリクレノイズを加えることで、探索を促していたが、これには方策改善の理論的な保証がなかった。 また、学習がたまたまサンプリングされた行動のみに依存しており、報酬のランダム性と掛け合わせて、大き…