将棋AIの実験ノート：chain ruleで方策を定義する（続き）

（前回の続き）

chain ruleで方策を定義したモデルと、現在のdlshogiの指し手を表現したモデルで、同じ局面を学習させて精度を比較した。

elmoで生成した、1000万局面を訓練に、100万局面をテストに使用した。

chain rule

f:id:TadaoYamaoka:20190929163420p:plain

現在のdlshogiの指し手表現

f:id:TadaoYamaoka:20190929163506p:plain

	test accuracy
chain rule	0.21363907
dlshogiの指し手表現	0.23695517

考察

現在のdlshogiの指し手表現の方がテスト局面に対する精度が高くなった。
chain ruleでは3つの確率を同じ重みにして、ハイパーパラメータも調整していないため、chain ruleでもそれらを調整することで精度が改善する可能性はあるが、将棋の指し手ではchain ruleを使用するよりもシンプルに移動先と移動方向を組み合わせた方がよさそうだ。