NeurIPS 2021で提案されたEfficientZeroを試してみた。EfficientZeroは、MuZeroのようなモデルベースの強化学習の手法で、サンプル効率が非常に高いことが特徴になっている。DQNでは、5億フレーム(約38日間のリアルゲーム時間)が必要だったが、EfficientZero…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。