2019-09-29から1日間の記事一覧

将棋AIの実験ノート：chain ruleで方策を定義する（続き）

（前回の続き）chain ruleで方策を定義したモデルと、現在のdlshogiの指し手を表現したモデルで、同じ局面を学習させて精度を比較した。elmoで生成した、1000万局面を訓練に、100万局面をテストに使用した。 chain rule 現在のdlshogiの指し手表現 test accu…

現在dlshogiでは、方策ネットワークの出力は、移動先座標と移動方向（8方向＋桂馬2方向＋駒打ち7方向）の組み合わせで表現している。これには、移動元を座標で表すと、分類するクラス数が多くなり精度に悪影響があるため、移動方向として表現することでクラ…