前回までで、実装に必要な内容についてほぼ解説しました。
今回は、補足的な内容です。
ドメイン知識
論文には以下の一文が記載されている。
Our primary contribution is to demonstrate that superhuman performance can be achieved without human domain knowledge.
「私たちの主な貢献は、人間の知識なしに超人的なパフォーマンスが達成できることを示すことです。」
人間の知識を用いないということが、この技術が囲碁に特化しない汎用的な技術であることを示している。
それを明確にするために、使用したドメイン知識を列挙している。
使用したドメイン知識
- 囲碁のルール:
- シミュレーションの終端状態でのスコア付け
- ゲームの終了条件
- 各局面での合法手
- MCTSシミュレーション中にTromp-Taylorスコアリング(曖昧さの無いルール)を使用
- 19×19のボードであること
- 回転と反転しても囲碁のルールが不変であること
以上の点を超えるドメイン知識は使用していない。
以前のAlphaGoでは、rollout policyやtree policyにドメイン知識やヒューリスティックを利用していたが、rollout policyやtree policyは使用していない。
合法手は一切除外していない。
従来のプログラムでは合法手でも駄目を詰めるといった無駄な手を除外していたが、そのようなことはしていない。
ニューラルネットワークアーキテクチャは、画像認識の最新技術に基づいており、それに応じて訓練用ハイパーパラメータを選択した。
MCTS探索パラメータは、予備実験で訓練されたニューラルネットワークを使って自己対局を行い、ガウス過程により最適化した。