AlphaZero Chess/Shogiの論文を読むその3

前回までに個人的に気になった点はだいたい書いたので、今回は残った部分で気になったところを拾って書きます。スケーラビリティ思考時間を増やした場合、αβ探索よりもレーティングの伸びが良い。これはAlphaZeroのMCTSがαβ探索より思考時間を短縮できる…

2017-12-07

AlphaZero Chess/Shogiの論文を読むその2(AlphaGo Zeroとの差分)

DeepLearning AlphaGo Zero AlphaZero コンピュータ将棋

AlphaZero Chee/Shogiの論文についての続きです。今回はAlphaGo Zeroとの差分について書きます。AlphaGo Zeroの論文については、以前に書いた記事を参照ください。ネットワーク構成ニューラルネットワークの構成は、AlphaGo Zeroと同じ、PolicyとValueを…

2017-12-06

AlphaZero Chess/Shogiの論文を読む

AlphaGo Zero DeepLearning コンピュータ将棋 AlphaZero

DeepMindからAlphaGo Zeroと同じ方法で、チェスと将棋でトップレベルを上回ったという論文が発表されました。 [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithmドメイン知識を用いないスクラッチから…

2017-12-05

将棋でディープラーニングするその50(ブートストラップ【訂正】)

DeepLearning コンピュータ将棋

以前に書いたブートストラップの説明に誤りがあったのと、Chainerで誤差逆伝播の効率化ができたので、追加記事を書きます。間違っていた内容以前に書いた記事で、2確率変数の交差エントロピーは、確率変数がシグモイド関数の場合、で表され、偏微分が、 …

2017-12-02

将棋AIの進捗その9(千日手対応)

コンピュータ将棋

dlshogiを千日手に対応させました。対応方法は以下の通り。 value networkで評価中に千日手チェックを行い、value networkの評価が終わったら、value networkの値を使わずに千日手チェックの結果を使うようにする。同じ局面でも経路によって千日手チェック…

2017-11-23

世界コンピュータ将棋選手権ライブラリ登録

DeepLearning コンピュータ将棋

dlshogiをライブラリ登録しました。コンピュータ将棋選手権使用可能ライブラリディープラーニングを使って将棋AIを開発したい方のお役に立てば幸いです。第5回電王トーナメントバージョンは、いろいろとバグがあったので、↓このコミットがバグを修正したソ…

2017-11-21

将棋でディープラーニングするその48(ResNet)

DeepLearning コンピュータ将棋

これまでニューラルネットワークの構成に、5ブロックのResNetを使ってきたが、層を増やすると精度がどれくらい上がるか実験を行ってみた。これまでは、ResNetの構成は、こちらの論文（[1603.05027] Identity Mappings in Deep Residual Networks）で精度が高…

2017-11-18

将棋でディープラーニングするその47(全結合)

DeepLearning コンピュータ将棋

AlphaGo Zeroでは、policy networkの出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 Fan Hui版AlphaGoでは1×1フィルターの畳み込み層を出力層としていた。出力層を全結合にした理由は、論文では説明されていないが、精度が上がる…

2017-11-18

将棋でディープラーニングするその46(出力ラベルの表現方法)

DeepLearning コンピュータ将棋

開発してるdlshogiでは、出力ラベルを(駒の種類×移動方向+持ち駒の種類)×座標で表現し、出力層にAlphaGoを参考に1×1の畳み込み層を使用している。 AlphaGo Zeroでは、出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 1×1の畳み込み…

2017-11-17

dlshogiのバグ報告

dlshogi コンピュータ将棋

電王トーナメントバージョンを公開しましたが、致命的なバグがありました。移動を表すラベルにバグがあり、いくつかの異なるラベルが同じラベルに割り振られていました。このバグのため学習の精度がかなり落ちていたと思われます。モデルの学習からやり直し…

2017-11-14

将棋でディープラーニングするその45(高速化)

DeepLearning コンピュータ将棋

現在のdlshogiの実装では、NPSが2500程度しかでていないため、高速化できる箇所がないかを検討している。モンテカルロ木探索でpolicyとvalueをGPUで計算すると、GPUの実行時間が処理時間のほとんどを占めているため、CPUの論理コア数以上のスレッドで並列に…

2017-11-12

dlshogiのビルド済みファイル公開

コンピュータ将棋

dlshogiの第5回将棋電王トーナメントバージョンのビルド済みファイルを公開しました。elmoで生成した35.8億局面を学習済みモデルと、モンテカルロ木探索で事前探索した定跡も含んでいます。CUDA、Pythonの環境構築が必要になるので、なるだけ丁寧に説明を記…

2017-11-11

第5回将棋電王トーナメント出場結果

コンピュータ将棋

第5回将棋電王トーナメントに参加しました。本日は予選が行われ、dlshogiは3勝5敗という結果で、予選落ちとなりました。 3回戦と6回戦は、秒読みに入ってから将棋所のinfo stringの出力に時間がかかり、優勢にかかわらず時間切れ負けとなってしまうという残…

2017-11-08

将棋でディープラーニングするその44(L2正則化)

AlphaGo Zero DeepLearning コンピュータ将棋

将棋AIのPolicy NetworkとValue Networkのマルチタスク学習でのL2正則化の効果を測定してみた。正則化なし loss policy accuracy value accuracy L2正則化係数 loss policy accuracy value accuracy 考察正則化なしでも、trainとlossにそれほど差がないが…

2017-11-08

将棋でディープラーニングするその43(ValueNetの出力をtanhにする2)

AlphaGo コンピュータ将棋 DeepLearning

前回、Value Networkの出力をtanhにした場合とsigmoidにした場合で比較を行ったが、マルチタスク学習を行っているため、はっきりした結果がわからなかった。今回は、Value Networkのみの学習で比較を行った。以下の2パターンで比較した。出力関数損失関数…

2017-11-06

将棋でディープラーニングするその42(ValueNetの出力をtanhにする)

AlphaGo DeepLearning コンピュータ将棋

将棋AIでは、評価関数をsigmoid関数で[0,1]の範囲で勝率にすることが行われている。 elmoの損失関数には、勝率の交差エントロピーと、浅い探索と深い探索の評価値から求めた勝率の交差エントロピーの和が使われている。一方、AlphaGoでは報酬に[-1,1]が使用…

2017-11-03

将棋でディープラーニングするその41(モーメントありSGD)

AlphaGo Zero コンピュータ将棋 DeepLearning

AlphaGo Zeroのニューラルネットワークの学習の最適化に使用されているモーメントありSGDを将棋AIで試してみた。以前に、最適化手法を比較した際、Adamのような学習率を自動で調整する手法よりSGDの方が学習効率が高かった。 AlphaGo FanバージョンでもSGDが…

2017-11-01

将棋でディープラーニングするその40(入力特徴に履歴追加)

AlphaGo Zero コンピュータ将棋 DeepLearning

その39からずいぶん期間が空きましたが、AlphaGo Zeroの論文を読んで試したいことができたので、AlphaGo Zeroの論文の方法が将棋AIに応用が可能か少しずつ試していこうと思います。AlphaGo Zeroの特徴については、別の記事に記載していますので、参照してく…

2017-10-24

AlphaGo Zeroの論文を読むその4(自己対局)

AlphaGo Zero AlphaGo コンピュータ将棋コンピュータ囲碁

その3の続き自己対局パイプライン自己対局パイプラインは、3つの主要な部分から構成される。最適化評価自己対局これらは並行で実行される。最適化ミニバッチサイズ：2,048 (32バッチずつ別々のGPUで実行) ミニバッチデータは直近50万の自己対局のす…

2017-10-20

AlphaGo Zeroの論文を読むその2(ネットワーク構成)

AlphaGo AlphaGo Zero コンピュータ囲碁コンピュータ将棋

前回に続いてAlphaGo Zeroの論文についてです。ネットワーク構成入力特徴 19×19の2値画像を17枚 8枚は現在のプレイヤーの石の座標を示す2値画像、8手分 8枚は相手のプレイヤーの石の座標を示す2値画像、8手分 1枚は現在のプレイヤーの石の色を示す全て0か1…

2017-10-01

技術書典3の告知

技術書典コンピュータ将棋

10/22(日)に秋葉原で開催される技術書典3にサークル参加します。サークル名は「dlshogi」、配置は「か19」です。頒布するのは、「ディープラーニングを使った将棋AIの作り方」です。 Policy Networkの作り方についての解説本になります。あと、お隣のサー…

2017-09-26

将棋AIの進捗その6(df-pn)

コンピュータ将棋

前回の日記で書いた通り、df-pnの実装を行いました。実装の参考にしたのは、以下の論文です。 CiNii 論文 - df-pnアルゴリズムの詰将棋を解くプログラムへの応用コンピュータ詰碁の探索戦略の改良上記の論文にはほぼ同じ疑似コードが掲載されていますが、A…

2017-09-23

将棋AIの進捗その5(王手の指し手生成)

コンピュータ将棋

前回の日記で、Aperyに王手の指し手生成がないという話を書いたが、仕方がないので自分で実装した。やねうら王には王手の指し手生成が実装されていたので、実装方法を参考にさせてもらった。 YaneuraOu/movegen.cpp at master · yaneurao/YaneuraOu · GitHub…