TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2019-12-05から1日間の記事一覧

リバーシ(オセロ)で深層強化学習その２（教師ありQ学習）

リバーシ強化学習

前回、オセロの棋譜の終端の報酬を使用して(TD(1))、教師ありで学習することでランダムより強くなることを確認した。今回は、教師ありでQ学習を試す。 Q学習 Q学習の学習則は以下の式で表される。は、遷移に対応する即時報酬で、リバーシ(オセロ)の場合、終…

MuZeroの論文を読むその４（結論）

MuZero

本文の残り、結論の部分です。結論人工知能のブレークスルーの多くは、高パフォーマンスプランニングまたはモデルフリー強化学習方法に基づいている。この論文では、両方のアプローチの利点を組み合わせた方法を紹介した。私たちのアルゴリズムMuZeroは…