TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2023-11-01から1ヶ月間の記事一覧

麻雀AIを深層強化学習で作るその９(自己対局)

麻雀AI

前回は、牌譜の記録/再生処理を実装した。今回は、自己対局で牌譜を生成する処理を実装する。処理方式強化学習のアルゴリズムにPPOを使用予定で、PPOはオンポリシーのアルゴリズムのため、現在のモデルで牌譜生成現在のモデルで生成した牌譜でモデルを…

麻雀AIを深層強化学習で作るその８(牌譜の記録/再生)

麻雀AI

強化学習実装の準備として、牌譜の記録/再生を実装した。PPOでは、エピソードの終端の報酬を、GAEで各ステップの状態に割り当てるため、エピソードの各ステップの状態を再生できるように記録しておく必要がある。また、ランダムな初期局面からの対局を再生…