前回記事にした自己対局の終了判定にdf-pnによる詰み探索を加えて、学習を進めた結果、valueの精度が1%近く向上しました(floodgateのR3500以上の棋譜との一致率)。
横軸の80サイクルから詰み探索を加えています。
どれくらいの棋力になったか、やねうら王 2017 Early KPPT 4.55(標準設定)と対局させてみました(GPUは1080Ti1枚、CPUはCorei7 6700K、1手3秒)。
まだ対局数は多くなく、勝率は非常に低いですが、数回は勝つことができるようになりました。
今までは一度も勝てなかったので、一つのマイルストーンを達成できた気がします。
※連続対局後に棋譜をロードしているので下側に直前の対局時の情報が残っています。
まだ、上位ソフトにはまったく届いていないですが、世界コンピュータ選手権に向けては、モンテカルロ木探索を活かした定跡作成方法と、Ponderの方法を思いついているので、大会までに実装と実験を行っていく予定です。