2017-05-20から1日間の記事一覧

将棋でディープラーニングするその17(強化学習の実装)

前回の日記に書いたように方策ネットワークを使って自己対戦できるようになったので、AlphaGoの手法(RL policy network)で強化学習の実装を行った。教師ありで十分に訓練できていないので、今の時点で強化学習を行っても効果はでないと思われるが、実装方法…