TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2023-11-05から1日間の記事一覧

麻雀AIを深層強化学習で作る その8(牌譜の記録/再生)

強化学習実装の準備として、牌譜の記録/再生を実装した。PPOでは、エピソードの終端の報酬を、GAEで各ステップの状態に割り当てるため、エピソードの各ステップの状態を再生できるように記録しておく必要がある。 また、ランダムな初期局面からの対局を再生…