将棋でディープラーニングするその49(再学習)

ResNetのブロック数を10にして、elmoで生成した深さ8の局面を使って、学習をやり直しています。スクラッチからの学習も試したいところですが、モデルの性能を評価するには、既存将棋ソフトで生成した棋譜は役に立ちます。 tanhバージョンはじめ、vlaue net…

2017-11-23

世界コンピュータ将棋選手権ライブラリ登録

DeepLearning コンピュータ将棋

dlshogiをライブラリ登録しました。コンピュータ将棋選手権使用可能ライブラリディープラーニングを使って将棋AIを開発したい方のお役に立てば幸いです。第5回電王トーナメントバージョンは、いろいろとバグがあったので、↓このコミットがバグを修正したソ…

2017-11-21

将棋でディープラーニングするその48(ResNet)

DeepLearning コンピュータ将棋

これまでニューラルネットワークの構成に、5ブロックのResNetを使ってきたが、層を増やすると精度がどれくらい上がるか実験を行ってみた。これまでは、ResNetの構成は、こちらの論文（[1603.05027] Identity Mappings in Deep Residual Networks）で精度が高…

2017-11-18

将棋でディープラーニングするその47(全結合)

DeepLearning コンピュータ将棋

AlphaGo Zeroでは、policy networkの出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 Fan Hui版AlphaGoでは1×1フィルターの畳み込み層を出力層としていた。出力層を全結合にした理由は、論文では説明されていないが、精度が上がる…

2017-11-18

将棋でディープラーニングするその46(出力ラベルの表現方法)

DeepLearning コンピュータ将棋

開発してるdlshogiでは、出力ラベルを(駒の種類×移動方向+持ち駒の種類)×座標で表現し、出力層にAlphaGoを参考に1×1の畳み込み層を使用している。 AlphaGo Zeroでは、出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 1×1の畳み込み…

2017-11-17

dlshogiのバグ報告

dlshogi コンピュータ将棋

電王トーナメントバージョンを公開しましたが、致命的なバグがありました。移動を表すラベルにバグがあり、いくつかの異なるラベルが同じラベルに割り振られていました。このバグのため学習の精度がかなり落ちていたと思われます。モデルの学習からやり直し…

2017-11-14

将棋でディープラーニングするその45(高速化)

DeepLearning コンピュータ将棋

現在のdlshogiの実装では、NPSが2500程度しかでていないため、高速化できる箇所がないかを検討している。モンテカルロ木探索でpolicyとvalueをGPUで計算すると、GPUの実行時間が処理時間のほとんどを占めているため、CPUの論理コア数以上のスレッドで並列に…

2017-11-12

dlshogiのビルド済みファイル公開

コンピュータ将棋

dlshogiの第5回将棋電王トーナメントバージョンのビルド済みファイルを公開しました。elmoで生成した35.8億局面を学習済みモデルと、モンテカルロ木探索で事前探索した定跡も含んでいます。CUDA、Pythonの環境構築が必要になるので、なるだけ丁寧に説明を記…

2017-11-11

第5回将棋電王トーナメント出場結果

コンピュータ将棋

第5回将棋電王トーナメントに参加しました。本日は予選が行われ、dlshogiは3勝5敗という結果で、予選落ちとなりました。 3回戦と6回戦は、秒読みに入ってから将棋所のinfo stringの出力に時間がかかり、優勢にかかわらず時間切れ負けとなってしまうという残…

2017-11-08

将棋でディープラーニングするその44(L2正則化)

AlphaGo Zero DeepLearning コンピュータ将棋

将棋AIのPolicy NetworkとValue Networkのマルチタスク学習でのL2正則化の効果を測定してみた。正則化なし loss policy accuracy value accuracy L2正則化係数 loss policy accuracy value accuracy 考察正則化なしでも、trainとlossにそれほど差がないが…

2017-11-08

将棋でディープラーニングするその43(ValueNetの出力をtanhにする2)

AlphaGo コンピュータ将棋 DeepLearning

前回、Value Networkの出力をtanhにした場合とsigmoidにした場合で比較を行ったが、マルチタスク学習を行っているため、はっきりした結果がわからなかった。今回は、Value Networkのみの学習で比較を行った。以下の2パターンで比較した。出力関数損失関数…

2017-11-07

tanh vs sigmoid

DeepLearning 機械学習

AlphaGoのValue Networkの出力にはtanhが使用されている。一方、将棋AIでは評価関数から勝率に変換する際、sigmoidが使われている。tanhとsigmoidのどちらがよいか、dlshogiの学習で検証してみたが、Policy NetworkとValue Networkのマルチタスク学習を行っ…