インターネット上から入手した5万局くらいのプロの棋譜から、プレイアウトの特徴量を学習させてみた。 勝ったほうの手のみを学習することにしたので、勝敗データがない棋譜は除外した。特徴量は、AlphaGoの論文にあったrollout policyの特徴量とした。 ただ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。