2019-12-14から1日間の記事一覧

MuZeroの論文を読むその６（探索）

MuZero 強化学習

付録B 探索 MuZeroで使用される探索アルゴリズムについて説明する。私たちのアプローチは、信頼区間の上限(UCB; upper confidence bounds)のあるモンテカルロ木探索、単一エージェントドメインの最適な方策とゼロサムゲームのミニマックス価値関数に漸近的…