TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2020-01-01から1ヶ月間の記事一覧

リバーシ(オセロ)で深層強化学習その７（Prioritized Experience Replay）

強化学習オセロ PyTorch リバーシ

リバーシ(オセロ)で深層強化学習を試すシリーズ、前回からしばらく空いたが、今回はPrioritized Experience Replayを試す。 Prioritized Experience Replay 強化学習では、サンプルの時間依存の相関を弱めるために、サンプルを乱択する経験再生（experience …

将棋AIの進捗その39(リーグ戦)

dlshogi コンピュータ将棋

年末にCPUを3970Xに変えてから、USIエンジンをリーグに加えた強化学習を行っている。 USIエンジンを各探索スレッドにつき2つ、GPUにつき探索スレッドを3つ、3GPUで探索を行っているので、合計18プロセス起動している。メモリの制約が厳しくこれ以上は起動で…

将棋AIの進捗その38(SWA)

コンピュータ将棋 dlshogi SWA

dlshogiの学習にSWA(Stochastic Weight Averaging)を実装して、測定した。 SWA SWA(Stochastic Weight Averaging)は、一定間隔での重みを平均化することで、ニューラルネットワークのテスト精度を改善するテクニックである。一般的なアンサンブルの手法では…

将棋AIの進捗その37(FPU reduction)

dlshogi MCTS コンピュータ将棋

昨日、MCTSで未訪問のノードの価値を、動的に親ノードの価値で初期化する方法を試した。その結果、技巧2(4コア)に対する勝率が、60%から69%(R+68.6)になった。昨日の結果の考察今までは0.5(引き分け)で初期化していたため、劣勢の局面で未探索のノードが…

将棋AIの進捗その36(UCBの価値の初期値)

dlshogi コンピュータ将棋 MCTS

AlphaZeroのMCTSのUCBには、という式が使用されており、このUCBで行動価値の信頼区間の上限を見積もっている。は、行動の行動価値を、探索を行った結果得られた価値の平均で推定する。ここで、のときは未定義であるため、何らかの値で推定する必要がある。…

将棋AIの進捗その35(PyTorchに移行)

dlshogi PyTorch Chainer

年末に新しいCPUが届いたので、正月はPCを組んでいた。同時にフルタワーケースを買ったのだが、GPU3枚だと熱対策をしないと安定動作しなかったので、ドリルで加工してファンを増設したりと正月から働いてしまったorz 安定動作するようになったので、前回記…