TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2017-05-21から1日間の記事一覧

将棋でディープラーニングするその19(報酬に応じた勾配その2)

Chainer DeepLearning コンピュータ将棋

※この記事の内容は誤りがありますので、こちらの日記を参照してください。前回の日記でChainerでミニバッチの要素を1件ずつ処理することで報酬に応じた勾配の計算を実装したが、softmax_cross_entropyのbackwardの処理で、誤差逆の後続に伝えるデルタの値に…

将棋でディープラーニングするその18(報酬に応じた勾配)

Chainer DeepLearning コンピュータ将棋

前回の日記で、RL policy networkの勾配を求める際に、対数尤度の偏微分に報酬に応じた重み（勝敗の報酬から状態価値を引いた値）を掛ける計算の実装が、Chainerでは難しいということを書いた。Chainerでは損失関数のbackwardを行うと、ミニバッチで1つの勾…