将棋でディープラーニングするその44(L2正則化)

将棋AIのPolicy NetworkとValue Networkのマルチタスク学習でのL2正則化の効果を測定してみた。

f:id:TadaoYamaoka:20171108225146p:plain

f:id:TadaoYamaoka:20171108225221p:plain

f:id:TadaoYamaoka:20171108225349p:plain

f:id:TadaoYamaoka:20171108224557p:plain

f:id:TadaoYamaoka:20171108224625p:plain

f:id:TadaoYamaoka:20171108225416p:plain

正則化なしでも、trainとlossにそれほど差がないが、L2正則化を行うとtrainとtestの差が縮まっている。
その代わりに、policy、vlaueともに2%くらい一致率が下がっている。

この結果から汎化が行われていると考えらるが、一致率が下がった分で実際の対局でプラスに働くかは検証が必要そうだ。

AlphaGo Zeroのように自己対局のみで学習する場合は、局面の偏りが心配なのでL2正則化は行った方がよいだろう。

なお、L2正則化係数を $10^{-6}$ にした場合は、正則化なしとほぼ同じグラフになった。
正則化の効果を得るには、L2正則化係数 $10^{-4}$ くらいが適している。

TadaoYamaokaの開発日記