TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2019-12-15から1日間の記事一覧

リバーシ(オセロ)で深層強化学習その５（DDQN）

リバーシオセロ DDQN 強化学習

前回は、環境を並列実行することでDQNの高速化を行った。今回は、DQNの派生形である、Double DQN(DDQN)を試す。 Double DQN(DDQN) 一般的にQ学習は、の項が行動価値を過大評価する傾向があり、それを抑制する手法としてDouble Q学習という手法がDQN以前から…

MuZeroの論文を読むその７（ハイパーパラメータ、データ生成）

MuZero 強化学習

付録C ハイパーパラメータ簡単にするために、以前の研究と同じアーキテクチャの選択とハイパーパラメータを優先的に使用する。具体的には、AlphaZeroのネットワークアーキテクチャと探索の選択肢から始めた。ボードゲームでは、AlphaZeroと同じUCB定数、…