2021-05-14から1日間の記事一覧

将棋AI実験ノート：方策の学習に温度パラメータを導入

以前にdlshogiで方策の分布を学習できるようにしたが、方策の分布を学習したモデルで対局すると、指し手のみを学習したモデルよりも弱くなるという問題が起きている。温度パラメータの調整である程度強くできたが、指し手のみを学習したモデルには及んでい…