TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2020-05-19から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読む その11

付録D. マルチアームバンディット形式 この節では、マルチアームバンディット(MAB)パラダイム、上限信頼限界(UCB)アルゴリズム、およびスライディングウィンドウUCBアルゴリズムについて簡潔に説明する。 より完全な説明と分析については、Garivier & Mo…