TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

数学

エントロピー正則化項の微分

エントロピー正則化数学 DeepLearning

以前に方策が決定論的にならないようにするために、損失にエントロピー正則化項を加えることを書いたが、誤差逆伝播する際の微分の式が誤っていたので訂正する。方策がソフトマックス関数の場合のエントロピーの微分エントロピーは以下の式で与えられる。 …

学習中と並列で自己対局

数学

先日の日記で、学習中にも自己対局を行うようにしたことを書いたが、現在dlshogiでは自己対局で生成した局面は過去10サイクル分をすべて学習に使うようにしている。（AlphaZeroのようにサンプリングしないですべての局面を使うのは、Actor-Criticで敗着とな…