TadaoYamaokaの日記

山岡忠夫Homeで公開しているプログラムの開発ネタを中心に書いていきます。

MuZeroの論文を読む その4(結論)

本文の残り、結論の部分です。

結論

  • 人工知能のブレークスルーの多くは、高パフォーマンスプランニングまたはモデルフリー強化学習方法に基づいている。
  • この論文では、両方のアプローチの利点を組み合わせた方法を紹介した。
  • 私たちのアルゴリズムMuZeroは、論理的に複雑なドメイン(チェスや囲碁などのボードゲーム)での高パフォーマンスプランニングアルゴリズムの超人的なパフォーマンスと、視覚的に複雑なドメインAtariゲーム)で最先端のモデルフリーRLアルゴリズムを上回った。
  • 重要なのは、私たちの方法はゲームのルールや環境のダイナミクスに関する知識を必要とせず、強力な学習およびプランニング方法を完璧なシミュレーターが存在しない現実世界の多くのドメインに適用する可能性を秘めていることである。
感想

結論では、ゲームのルールを必要としないで(環境から返されるデータだけで)学習できるという点が強調されています。
以前のAlphaZeroでは、MCTSのシミュレーションでゲームのルールを使用していましたが、環境(ボードゲームの場合は遷移確率)をニューラルネットワークでモデル化することで、ゲームのルールが不要となっています。
シミュレーションの結果を使って実際に着手する際は合法手のチェックは必要なので、まったくルールを使っていないかというと微妙ですが。

読み始める前は私が開発しているdlshogiに応用できるかもという期待はありましたが、チェスと将棋ではパフォーマンスはAlphaZeroと同程度で、AlphaZeroより学習ステップ数が増えているので、そのまま取り入れるメリットはなさそう。
ただしAlphaZeroのメソッドと併用するなど応用の可能性はありそうなので、技術的な興味もあるので一度実装してみたいと思っています。

次回は、付録を読んでいきます。