TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

コンピュータ将棋

将棋でディープラーニングする その51(ディリクレノイズ)

電王トーナメント版のdlshogiでは、Policyの読み漏れを回避するために、自分の手番の局面だけ、Policyの予測するそれぞれの手について1/1000の確率で値を1.5倍にするということを行っていた。 自分の手番の局面だけにしたのは、相手の局面にもノイズを入れる…

AlphaZero Chess/Shogiの論文を読む その3

前回までに個人的に気になった点はだいたい書いたので、今回は残った部分で気になったところを拾って書きます。 スケーラビリティ 思考時間を増やした場合、αβ探索よりもレーティングの伸びが良い。 これはAlphaZeroのMCTSがαβ探索より思考時間を短縮できる…

AlphaZero Chess/Shogiの論文を読む その2(AlphaGo Zeroとの差分)

AlphaZero Chee/Shogiの論文についての続きです。 今回はAlphaGo Zeroとの差分について書きます。AlphaGo Zeroの論文については、以前に書いた記事を参照ください。 ネットワーク構成 ニューラルネットワークの構成は、AlphaGo Zeroと同じ、PolicyとValueを…

AlphaZero Chess/Shogiの論文を読む

DeepMindからAlphaGo Zeroと同じ方法で、チェスと将棋でトップレベルを上回ったという論文が発表されました。 [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithmドメイン知識を用いないスクラッチから…

将棋でディープラーニングする その50(ブートストラップ【訂正】)

以前に書いたブートストラップの説明に誤りがあったのと、Chainerで誤差逆伝播の効率化ができたので、追加記事を書きます。 間違っていた内容 以前に書いた記事で、2確率変数の交差エントロピーは、確率変数がシグモイド関数の場合、 で表され、偏微分が、 …

将棋AIの進捗 その9(千日手対応)

dlshogiを千日手に対応させました。対応方法は以下の通り。 value networkで評価中に千日手チェックを行い、value networkの評価が終わったら、value networkの値を使わずに千日手チェックの結果を使うようにする。 同じ局面でも経路によって千日手チェック…

世界コンピュータ将棋選手権 ライブラリ登録

dlshogiをライブラリ登録しました。 コンピュータ将棋選手権使用可能ライブラリディープラーニングを使って将棋AIを開発したい方のお役に立てば幸いです。第5回電王トーナメントバージョンは、いろいろとバグがあったので、↓このコミットがバグを修正したソ…

将棋でディープラーニングする その48(ResNet)

これまでニューラルネットワークの構成に、5ブロックのResNetを使ってきたが、層を増やすると精度がどれくらい上がるか実験を行ってみた。これまでは、ResNetの構成は、こちらの論文([1603.05027] Identity Mappings in Deep Residual Networks)で精度が高…

将棋でディープラーニングする その47(全結合)

AlphaGo Zeroでは、policy networkの出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 Fan Hui版AlphaGoでは1×1フィルターの畳み込み層を出力層としていた。 出力層を全結合にした理由は、論文では説明されていないが、精度が上がる…

将棋でディープラーニングする その46(出力ラベルの表現方法)

開発してるdlshogiでは、出力ラベルを(駒の種類×移動方向+持ち駒の種類)×座標で表現し、出力層にAlphaGoを参考に1×1の畳み込み層を使用している。 AlphaGo Zeroでは、出力ラベルを石の色×座標+passで表しており、全結合層で出力を行っている。 1×1の畳み込み…

dlshogiのバグ報告

電王トーナメントバージョンを公開しましたが、致命的なバグがありました。移動を表すラベルにバグがあり、いくつかの異なるラベルが同じラベルに割り振られていました。 このバグのため学習の精度がかなり落ちていたと思われます。モデルの学習からやり直し…

将棋でディープラーニングする その45(高速化)

現在のdlshogiの実装では、NPSが2500程度しかでていないため、高速化できる箇所がないかを検討している。モンテカルロ木探索でpolicyとvalueをGPUで計算すると、GPUの実行時間が処理時間のほとんどを占めているため、CPUの論理コア数以上のスレッドで並列に…

dlshogiのビルド済みファイル公開

dlshogiの第5回将棋電王トーナメントバージョンのビルド済みファイルを公開しました。elmoで生成した35.8億局面を学習済みモデルと、モンテカルロ木探索で事前探索した定跡も含んでいます。CUDA、Pythonの環境構築が必要になるので、なるだけ丁寧に説明を記…

第5回将棋電王トーナメント 出場結果

第5回将棋電王トーナメントに参加しました。本日は予選が行われ、dlshogiは3勝5敗という結果で、予選落ちとなりました。 3回戦と6回戦は、秒読みに入ってから将棋所のinfo stringの出力に時間がかかり、優勢にかかわらず時間切れ負けとなってしまうという残…

将棋でディープラーニングする その44(L2正則化)

将棋AIのPolicy NetworkとValue Networkのマルチタスク学習でのL2正則化の効果を測定してみた。 正則化なし loss policy accuracy value accuracy L2正則化係数 loss policy accuracy value accuracy 考察 正則化なしでも、trainとlossにそれほど差がないが…

将棋でディープラーニングする その43(ValueNetの出力をtanhにする2)

前回、Value Networkの出力をtanhにした場合とsigmoidにした場合で比較を行ったが、マルチタスク学習を行っているため、はっきりした結果がわからなかった。今回は、Value Networkのみの学習で比較を行った。 以下の2パターンで比較した。 出力関数 損失関数…

将棋でディープラーニングする その42(ValueNetの出力をtanhにする)

将棋AIでは、評価関数をsigmoid関数で[0,1]の範囲で勝率にすることが行われている。 elmoの損失関数には、勝率の交差エントロピーと、浅い探索と深い探索の評価値から求めた勝率の交差エントロピーの和が使われている。一方、AlphaGoでは報酬に[-1,1]が使用…

将棋でディープラーニングする その41(モーメントありSGD)

AlphaGo Zeroのニューラルネットワークの学習の最適化に使用されているモーメントありSGDを将棋AIで試してみた。以前に、最適化手法を比較した際、Adamのような学習率を自動で調整する手法よりSGDの方が学習効率が高かった。 AlphaGo FanバージョンでもSGDが…

将棋でディープラーニングする その40(入力特徴に履歴追加)

その39からずいぶん期間が空きましたが、AlphaGo Zeroの論文を読んで試したいことができたので、AlphaGo Zeroの論文の方法が将棋AIに応用が可能か少しずつ試していこうと思います。AlphaGo Zeroの特徴については、別の記事に記載していますので、参照してく…

AlphaGo Zeroの論文を読む その4(自己対局)

その3の続き 自己対局パイプライン 自己対局パイプラインは、3つの主要な部分から構成される。 最適化 評価 自己対局 これらは並行で実行される。 最適化 ミニバッチサイズ:2,048 (32バッチずつ別々のGPUで実行) ミニバッチデータは直近50万の自己対局のす…

AlphaGo Zeroの論文を読む その2(ネットワーク構成)

前回に続いてAlphaGo Zeroの論文についてです。 ネットワーク構成 入力特徴 19×19の2値画像を17枚 8枚は現在のプレイヤーの石の座標を示す2値画像、8手分 8枚は相手のプレイヤーの石の座標を示す2値画像、8手分 1枚は現在のプレイヤーの石の色を示す全て0か1…

技術書典3の告知

10/22(日)に秋葉原で開催される技術書典3にサークル参加します。 サークル名は「dlshogi」、配置は「か19」です。 頒布するのは、「ディープラーニングを使った将棋AIの作り方」です。 Policy Networkの作り方についての解説本になります。あと、お隣のサー…

将棋AIの進捗 その6(df-pn)

前回の日記で書いた通り、df-pnの実装を行いました。実装の参考にしたのは、以下の論文です。 CiNii 論文 - df-pnアルゴリズムの詰将棋を解くプログラムへの応用 コンピュータ詰碁の探索戦略の改良 上記の論文にはほぼ同じ疑似コードが掲載されていますが、A…

将棋AIの進捗 その5(王手の指し手生成)

前回の日記で、Aperyに王手の指し手生成がないという話を書いたが、仕方がないので自分で実装した。やねうら王には王手の指し手生成が実装されていたので、実装方法を参考にさせてもらった。 YaneuraOu/movegen.cpp at master · yaneurao/YaneuraOu · GitHub…

将棋AIの進捗 その4(詰みの探索)

前回の日記で、末端ノードで詰みの探索を行う予定と書いた通り、詰みの探索をするようにしました。ディープラーニングは詰みの探索が苦手なので、ディープラーニングと詰み探索を組み合わせるのは有効だと思っています。 Policy Network、Value Networkの計…

将棋AIの進捗 その3

以前の日記で、電王トーナメントに出るつもりと書いていましたが、申し込みをしました。 予選通過も厳しそうですがとりあえず頑張ります。 さて、前回からの進捗ですが、35億局面の学習が3エポック回したところで飽和しました。 一致率は、Policy Networkが4…

将棋AIの進捗 その2

elmo_for_learnを使ってdepth8で35億局面の生成ができたので、DNNの学習を開始しました。前に7.5億局面を学習したときは、4日と20.5時間かかったので、35億局面を学習するには22日15.6時間かかる見込みです。elmo_for_learnで生成した局面には重複局面が4%程…

将棋AIの進捗

検証しているディープラーニングを使った将棋AIは、学習データを増やさないと精度が上げられないため、elmo_for_leanを使ってひたすら学習データを生成中です。現在、ようやく20億局面くらい。 PCを占有されると困るので、10コアのPCを1台買ってしまいました…

将棋でディープラーニングする その39(ブートストラップ)

前回の日記で、ブートストラップについて少し書いたが、1000万局面では効果がわからなかったので、局面を増やして再度検証した。 ブートストラップ 前回も書いたが、本来の報酬(勝敗)とは別の推定量(探索結果の評価値)を用いてパラメータを更新する手法…

将棋でディープラーニングする その38(学習継続中)

前回の日記で、利きを入力特徴に加えることで精度が上がることを確認したので、利きを追加したモデルで、初期値から学習をやり直した。学習データには、elmo_for_learnで深さ8で生成した、1億5千万局面を使用した。以前に生成したときは、引き分けの局面も出…