TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

AlphaGo Zeroの論文を読む その5(ドメイン知識)

前回までで、実装に必要な内容についてほぼ解説しました。

今回は、補足的な内容です。

ドメイン知識

論文には以下の一文が記載されている。

Our primary contribution is to demonstrate that superhuman performance can be achieved without human domain knowledge.

「私たちの主な貢献は、人間の知識なしに超人的なパフォーマンスが達成できることを示すことです。」

人間の知識を用いないということが、この技術が囲碁に特化しない汎用的な技術であることを示している。
それを明確にするために、使用したドメイン知識を列挙している。

使用したドメイン知識

  1. 囲碁のルール:
    • シミュレーションの終端状態でのスコア付け
    • ゲームの終了条件
    • 各局面での合法手
  2. MCTSシミュレーション中にTromp-Taylorスコアリング(曖昧さの無いルール)を使用
  3. 19×19のボードであること
  4. 回転と反転しても囲碁のルールが不変であること

以上の点を超えるドメイン知識は使用していない。
以前のAlphaGoでは、rollout policyやtree policyにドメイン知識やヒューリスティックを利用していたが、rollout policyやtree policyは使用していない。

合法手は一切除外していない。
従来のプログラムでは合法手でも駄目を詰めるといった無駄な手を除外していたが、そのようなことはしていない。

ニューラルネットワークアーキテクチャは、画像認識の最新技術に基づいており、それに応じて訓練用ハイパーパラメータを選択した。
MCTS探索パラメータは、予備実験で訓練されたニューラルネットワークを使って自己対局を行い、ガウス過程により最適化した。

感想

技術の汎用性を示すために、あえてゼロから訓練を行っているように感じました。
部分的にドメイン知識を利用した方が強くなる可能性もあると思いますが、単に強くすることだけが目的ではないのでしょう。
逆に考えれば、囲碁の知識も有効活用すれば、強くすることに関しては上回る可能性はあると思います。
ただ、AlpaGo Zeroは以前のAlphaGoより強くなっているので、下手な囲碁の知識は入れない方が良いとは思います。


今回で終了します。