将棋でディープラーニングするその39(ブートストラップ)

DeepLearning コンピュータ将棋

前回の日記で、ブートストラップについて少し書いたが、1000万局面では効果がわからなかったので、局面を増やして再度検証した。ブートストラップ前回も書いたが、本来の報酬（勝敗）とは別の推定量（探索結果の評価値）を用いてパラメータを更新する手法…

2017-06-26

将棋でディープラーニングするその38(学習継続中)

DeepLearning コンピュータ将棋

前回の日記で、利きを入力特徴に加えることで精度が上がることを確認したので、利きを追加したモデルで、初期値から学習をやり直した。学習データには、elmo_for_learnで深さ8で生成した、1億5千万局面を使用した。以前に生成したときは、引き分けの局面も出…

2017-06-21

WindowsでChainerをGPUを使って動かす(v2.0対応)

Chainer

Windowsで安定して使用できるv1.24を使用していましたが、Chainer v2.0でパフォーマンスが向上するということなので、アップデートしました。v1.24用のコードに一部修正が発生しましたが、軽微な修正で対応できました。環境準備以前の日記を参照してくださ…

2017-06-21

将棋でディープラーニングするその37(利き数を入力特徴に追加)

DeepLearning コンピュータ将棋

モデルの精度を上げるために、入力特徴を追加して精度が上がるか検証しました。 AlphaGoでは盤面の情報に加えて呼吸点などの情報を入力特徴に加えることで、精度が向上している。盤面の情報(4個の特徴)のみでは、test accuracyが47.6%だが、48個の特徴とす…

2017-06-19

将棋でディープラーニングするその36(PUCTアルゴリズムの実装)

DeepLearning コンピュータ将棋モンテカルロ木探索

Ray+Rnのソースを元に、policy networkとvalue networkを使った、モンテカルロ木探索を実装しました。実装方法以前の日記で書いたPUCTアルゴリズム*1を実装した。以前に考察したように、将棋ではプレイアウトで終局までプレイしても精度が低いため、終局ま…

2017-06-15

将棋でディープラーニングするその35(マルチタスク学習(補足))

DeepLearning コンピュータ将棋マルチタスク学習

試している将棋でのディープラーニングについて、PUCTの実装をRay+Rnのソースコードを参考に行っていますが、囲碁部分のコードを将棋に置き換えるのがわりと面倒で、完成にはもうしばらくかかりそうです。その間に、追加でモデル学習の実験を行いました。今…

2017-06-14

仮説検定でプログラムが有意に強くなったか検証する

統計 R言語

プログラムで自己対局したときに、その対局数と勝敗の数から何%勝ちなら強くなったといえるのか。そのような問題に統計的に答える方法として、仮説検定という方法がある。仮説検定仮説検定は、帰無仮設と対立仮説を設定し、帰無仮説が定めた有意水準の範…

2017-06-08

将棋でディープラーニングするその34(強化学習【成功】)

DeepLearning コンピュータ将棋強化学習

以前にRL policy networkをelmoの自己対戦でデータを使ってREINFORCE algorithmで学習させたが、うまく学習できなかった。昨日の日記でマルチタスク学習を実装したので、RL policy networkをバリューネットワークと同時に学習させることで、RL policy networ…

2017-06-08

将棋でディープラーニングするその33(マルチタスク学習)

DeepLearning コンピュータ将棋マルチタスク学習

SL policy networkとValue networkは、12層までは同じ構成で、出力の数層のみが異なるため、12層まで同じネットワークでそこから2つの出力を行うようにして、SL policy networkとValue networkを同時に学習することを試してみた。複数のタスクを同時に学習す…