高速化

リバーシ(オセロ)で深層強化学習その４（並列実行）

DQN リバーシオセロ強化学習高速化

前回、DQNでリバーシ(オセロ)の強化学習を試して、ランダムより強くなることを確認した。しかし、シングルステッドでシングルゲームを繰り返しているため1万イテレーションの実行に約14時間かかった。方策勾配法のアルゴリズムであるA2Cでは、環境を並列実…