リバーシ(オセロ)で深層強化学習その５（DDQN）

前回は、環境を並列実行することでDQNの高速化を行った。

今回は、DQNの派生形である、Double DQN(DDQN)を試す。

Double DQN(DDQN)

一般的にQ学習は、 $\max _{a} Q\left(s_{t+1}, a\right)$ の項が行動価値を過大評価する傾向があり、それを抑制する手法としてDouble Q学習という手法がDQN以前からあった。
Double DQNは、Double Q学習の手法をDQNに適用したアルゴリズムになる。
[1509.06461] Deep Reinforcement Learning with Double Q-learning

具体的には、DQNでは行動価値の評価に単一のネットワークを使用していたが、DDQNではパラメータ $\theta$ と $\theta'$ の2つのネットワークを使用して、以下の式で行動価値を評価する。

$\displaystyle \begin{equation}\label{TDDQ} Y^{\text{DoubleQ}}_t \equiv R_{t+1} + \gamma Q(S_{t+1}, argmax_a Q(S_{t+1}, a; \theta_t); \theta'_t ) \,. \end{equation}$

この式は、パラメータ $\theta$ のネットワークが行動価値の最大となる行動を選択し、パラメータ $\theta'$ のネットワークがその行動の行動価値を評価することを意味している。

学習方法

オリジナルのDouble Q学習では、2つのネットワークをランダムに割り当て、どちらかを一方を学習することで学習を行っている。
DDQNでは、ネットワークを完全に分離するのではなく、ネットワークのパラメータを定期的にコピーすることで、2つのネットワークを実現している。
これは、DQNでも行っていたことで、DQNの自然な発展となっている。

パラメータ $\theta$ のネットワークの部分を、DQNの挙動方策に使用していたネットワーク(policy_net)を使用することで簡単に実現できる。

実装

DQNのコードとほとんど同じため、実行時引数によって、学習処理を条件分岐するようにして実装した。

if args.ddqn:
    max_a = policy_net(non_final_next_states).gather(1, non_final_next_actions).max(1)[1].unsqueeze(1)
    target_q = target_net(non_final_next_states).gather(1, non_final_next_actions)
    next_state_values[non_final_mask] = -target_q.gather(1, max_a).squeeze().detach()
else:
    target_q = target_net(non_final_next_states)
    next_state_values[non_final_mask] = -target_q.gather(1, non_final_next_actions).max(1)[0].detach()

DQNでは、target_netの出力の最大値(合法手のみ)を直接使用して、next_state_valuesを算出していたところを、DDQNでは、一旦policy_netで出力したQ値が最大(合法手のみ)となる手を選択した後、その手をtarget_netで評価している。