将棋でディープラーニングするその51(ディリクレノイズ)

AlphaZero DeepLearning モンテカルロ木探索コンピュータ将棋

電王トーナメント版のdlshogiでは、Policyの読み漏れを回避するために、自分の手番の局面だけ、Policyの予測するそれぞれの手について1/1000の確率で値を1.5倍にするということを行っていた。自分の手番の局面だけにしたのは、相手の局面にもノイズを入れる…

2017-12-10

C++でディリクレ分布による乱数生成

C++

C++にディリクレ分布で乱数生成する標準関数は用意されていない。ガンマ分布で乱数生成する標準関数std::gamma_distributionが用意されているので、 Dirichlet distribution - Wikipedia に書かれている方法を使って、ガンマ分布で乱数y1,...,yKを生成し、 …

2017-12-09

ディリクレ分布の可視化

AlphaGo Zero AlphaZero

AlphaZeroのMCTSのルートノードではディリクレノイズを加えることで、全ての手をランダムで選ばれやすくしている。以前の記事で、2次元のディリクレ分布を可視化したが、3次元の場合の可視化ができないか調べていたら、以下のページを見つけたので試してみ…

2017-12-08

AlphaZero Chess/Shogiの論文を読むその3

DeepLearning AlphaZero コンピュータ将棋

前回までに個人的に気になった点はだいたい書いたので、今回は残った部分で気になったところを拾って書きます。スケーラビリティ思考時間を増やした場合、αβ探索よりもレーティングの伸びが良い。これはAlphaZeroのMCTSがαβ探索より思考時間を短縮できる…

2017-12-07

AlphaZero Chess/Shogiの論文を読むその2(AlphaGo Zeroとの差分)

DeepLearning AlphaGo Zero AlphaZero コンピュータ将棋

AlphaZero Chee/Shogiの論文についての続きです。今回はAlphaGo Zeroとの差分について書きます。AlphaGo Zeroの論文については、以前に書いた記事を参照ください。ネットワーク構成ニューラルネットワークの構成は、AlphaGo Zeroと同じ、PolicyとValueを…

2017-12-06

AlphaZero Chess/Shogiの論文を読む

AlphaGo Zero DeepLearning コンピュータ将棋 AlphaZero

DeepMindからAlphaGo Zeroと同じ方法で、チェスと将棋でトップレベルを上回ったという論文が発表されました。 [1712.01815] Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithmドメイン知識を用いないスクラッチから…

2017-12-05

将棋でディープラーニングするその50(ブートストラップ【訂正】)

DeepLearning コンピュータ将棋

以前に書いたブートストラップの説明に誤りがあったのと、Chainerで誤差逆伝播の効率化ができたので、追加記事を書きます。間違っていた内容以前に書いた記事で、2確率変数の交差エントロピーは、確率変数がシグモイド関数の場合、で表され、偏微分が、 …

2017-12-02

Jupyter QtConsoleのTips

ほぼ自分用のメモ。 OSのコマンド実行先頭に「!」を付ける。例） !dir参考：IPython reference — IPython 8.1.0 documentation グラフをインラインで表示 %matplotlib inline参考：IPython reference — IPython 8.1.0 documentation グラフを別ウィンドウ…