PUCTの定数のベイズ最適化

AlphaZeroの論文では、PUCTの定数を以下の式で、親ノードの訪問回数に応じて動的に調整を行っている。この式で現れる定数とは、疑似コードでは以下のように定義されている。 # UCB formula self.pb_c_base = 19652 self.pb_c_init = 1.25 私が実験しているd…

2018-02-23

将棋AIの進捗その11(マルチGPU対応)

Python C++ コンピュータ将棋モンテカルロ木探索 dlshogi

GPUが２つになったので、dlshogiをマルチGPUに対応させました。ニューラルネットワークの計算要求をキューにためてミニバッチで推論を行う仕組みにしていたので、キューをGPUごとに用意して、探索スレッドを一方のキューに対応させて、キューを監視してニュ…

2017-12-10

将棋でディープラーニングするその51(ディリクレノイズ)

AlphaZero DeepLearning モンテカルロ木探索コンピュータ将棋

電王トーナメント版のdlshogiでは、Policyの読み漏れを回避するために、自分の手番の局面だけ、Policyの予測するそれぞれの手について1/1000の確率で値を1.5倍にするということを行っていた。自分の手番の局面だけにしたのは、相手の局面にもノイズを入れる…

2017-06-19

将棋でディープラーニングするその36(PUCTアルゴリズムの実装)

DeepLearning コンピュータ将棋モンテカルロ木探索

Ray+Rnのソースを元に、policy networkとvalue networkを使った、モンテカルロ木探索を実装しました。実装方法以前の日記で書いたPUCTアルゴリズム*1を実装した。以前に考察したように、将棋ではプレイアウトで終局までプレイしても精度が低いため、終局ま…

2017-06-03

将棋でディープラーニングするその30(探索アルゴリズム)

DeepLearning モンテカルロ木探索コンピュータ将棋

まだ方策ネットワークもバリューネットワークも精度が低いが、精度を上げるのは一旦保留して、対局時の方法について検討する。以前に考察したように、将棋は読みが重要なゲームであるため、探索を用いず方策ネットワークのみで指しても強くならないと思われ…

2016-05-21

【囲碁プログラム】 rollout/tree policyをAdaGradで学習

AlphaGo 囲碁モンテカルロ木探索囲碁プログラム機械学習

※学習のやり直しを行った記事はこちらプロの棋譜からrollout/tree policyを学習してもGnuGoに対して勝率が30%程度であまり高くなっていない。学習に確率的勾配降下法(SGD)を固定の学習係数(0.001)とL1正則化係数(0.0000001)を使っていたので、学習方法を変…

2016-05-16

【囲碁プログラム】 tree policyの学習

AlphaGo 囲碁プログラムモンテカルロ木探索機械学習

AlphaGoの論文にあるtree policyをプロの棋譜から学習を行った。rollout plicyから追加される特徴は以下の3つ。 Self-atari … 次に取られる手 Last move distance … 直前の2手からのマンハッタン距離 Non-response patter … 12point diamondパターン Last mo…