2017-06-08から1日間の記事一覧

2017-06-08

将棋でディープラーニングするその34(強化学習【成功】)

以前にRL policy networkをelmoの自己対戦でデータを使ってREINFORCE algorithmで学習させたが、うまく学習できなかった。昨日の日記でマルチタスク学習を実装したので、RL policy networkをバリューネットワークと同時に学習させることで、RL policy networ…

2017-06-08

将棋でディープラーニングするその33(マルチタスク学習)

DeepLearning コンピュータ将棋マルチタスク学習

SL policy networkとValue networkは、12層までは同じ構成で、出力の数層のみが異なるため、12層まで同じネットワークでそこから2つの出力を行うようにして、SL policy networkとValue networkを同時に学習することを試してみた。複数のタスクを同時に学習す…

TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2017-06-08から1日間の記事一覧

将棋でディープラーニングするその34(強化学習【成功】)

将棋でディープラーニングするその33(マルチタスク学習)

2017-06-08から1日間の記事一覧

将棋でディープラーニングする その34(強化学習【成功】)

将棋でディープラーニングする その33(マルチタスク学習)

将棋でディープラーニングするその34(強化学習【成功】)

将棋でディープラーニングするその33(マルチタスク学習)