前回、入玉特徴量を加えることで、入玉特徴量なしと比較して弱くなると書いたが、入玉特徴量なしのモデルの学習条件が異なっていたいので、計測をやり直した。
前回
強さ計測に使用したモデルが、学習率スケジューラが同じ条件になっていなかった。
再計測結果
評価精度
強さ
持ち時間3分2秒加算で互角局面から連続対局した結果は以下の通り。
# PLAYER : RATING ERROR POINTS PLAYED (%) CFS(%) W D L D(%) 1 nyugyoku20 : 15.9 20.8 328.0 611 54 58 302 52 257 9 2 nnue-4th : 12.2 22.9 241.0 456 53 90 220 42 194 9 3 nyugyoku10 : -11.0 19.1 315.5 649 49 66 284 63 302 10 4 resnet : -17.0 17.0 403.5 860 47 --- 367 73 420 8 White advantage = 15.08 +/- 8.93 Draw rate (equal opponents) = 8.96 % +/- 0.79
前回と異なり、入玉特徴量を加えたモデルが有意に強くなっている。
入玉特徴量ありで、残り点数20点未満としたモデルが最も強く、入玉特徴量なしと比較して、R+32.9になっている。
入玉宣言勝ちの回数
入玉宣言勝ちの数をカウントした結果は以下の通り。
モデル | 対局数 | 入玉宣言勝ち | 100対局あたり |
---|---|---|---|
入玉特徴量なし | 860 | 16 | 1.86 |
入玉特徴量あり(残り点数10点未満) | 649 | 13 | 2.00 |
入玉特徴量あり(残り点数20点未満) | 611 | 3 | 0.49 |
対局数を合わせていないため、100対局あたりにすると、入玉特徴量あり(残り点数10点未満)の回数が一番多かった。
カイ二乗検定を行うと、p値は0.0488で、同じ確率とは言い難い。
入玉特徴量あり(残り点数20点未満)の回数が少ないのは、互角局面集だとモデルが強いと、入玉にならずに勝つ場合は増えるので、正しく入玉の精度の計測できていないかもしれない。
import numpy as np from scipy.stats import chi2_contingency observed = np.array([ [16, 13, 3], # 正例 [844, 636, 608] # 負例 ]) chi2, p, dof, expected = chi2_contingency(observed)