2023-10-08から1日間の記事一覧

PyTorchでPPOを実装する

麻雀AIの準備として、PyTorchでPPOアルゴリズムをスクラッチで実装した。はじめ、最近リリースされたTorchRLで実装しようと思って試していたが、連続環境でのチュートリアルはあるが、いろいろ試したが離散環境に対応することができず断念した。Stable Basel…