TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2020-05-25から1日間の記事一覧

Agent57: Outperforming the Atari Human Benchmarkを読む その14

付録G. ハイパーパラメータ G.1. との値 セットの選択の間の直感は次のとおりです。 については、非常に活用的である方策と探索的である方策を奨励したいので、図11(a)に示すようにシグモイドを選択する。 については、活用方策(の値が小さい)には長期的な…