2023-11-13から1日間の記事一覧

麻雀AIを深層強化学習で作るその９(自己対局)

麻雀AI

前回は、牌譜の記録/再生処理を実装した。今回は、自己対局で牌譜を生成する処理を実装する。処理方式強化学習のアルゴリズムにPPOを使用予定で、PPOはオンポリシーのアルゴリズムのため、現在のモデルで牌譜生成現在のモデルで生成した牌譜でモデルを…