以前に方策が決定論的にならないようにするために、損失にエントロピー正則化項を加えることを書いたが、誤差逆伝播する際の微分の式が誤っていたので訂正する。 方策がソフトマックス関数の場合のエントロピーの微分 エントロピーは以下の式で与えられる。 …
先日の日記で、学習中にも自己対局を行うようにしたことを書いたが、現在dlshogiでは自己対局で生成した局面は過去10サイクル分をすべて学習に使うようにしている。 (AlphaZeroのようにサンプリングしないですべての局面を使うのは、Actor-Criticで敗着とな…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。