将棋AI用モデルの学習で正則化の有無による精度への影響を測定した。
測定方法
測定結果
2019/5/22 追記
下記の結果は、正しく測定できていなかったので、後日再測定した。
損失
エントロピー正則化 | L2正則化 | 訓練損失 (合計) | テスト損失 (Policy) | テスト損失 (Value) | テスト損失 (評価値) |
---|---|---|---|---|---|
あり | あり | 3.2301362 | 2.4167266 | 0.8728576 | 0.88259214 |
なし | あり | 3.2703197 | 2.516463 | 0.7008645 | 0.7254533 |
あり | なし | 3.4063873 | 2.6232579 | 0.7150356 | 0.7397537 |
なし | なし | 3.4155998 | 2.6385918 | 0.75832886 | 0.7684118 |
考察
エントロピー正則化とL2正則化両方を行った場合が、最もPolicyの精度が高かった。
しかし、Valueの精度が最も低いという結果になった。
L2正則化のみを行うと、Valueの精度が最も高くなった。
しかし、Policyのエントロピーが最も低くなっており方策が決定論的になる傾向がある。
エントロピー正則化のみを行うと、Policyの精度は3番目、Valueの精度は2番目という結果になった。
Policyのエントロピーは最も高く、決定論的になりにくい傾向がある。Valueのエントロピーも比較的に高い。
どちらの正則化も行わない場合、Policyの精度が最も低く、Valueの精度は3番目という結果になった。
この結果からは、エントロピー正則化のみを行った場合が総合的に良さそうである。
AlphaZeroではL2正則化のみを行っているが、教師データに指し手を使う場合はL2正則化はPolicyの精度に悪影響がありそう。