2025-06-15から1日間の記事一覧

Gumbel AlphaZeroの論文を読むその６（Gumbel-Top-kトリック）

従来のAlphaZeroの行動選択は、訪問回数の分布にディリクレノイズを加えることで、探索を促していたが、これには方策改善の理論的な保証がなかった。また、学習がたまたまサンプリングされた行動のみに依存しており、報酬のランダム性と掛け合わせて、大き…