麻雀AIの準備として、PyTorchでPPOアルゴリズムをスクラッチで実装した。はじめ、最近リリースされたTorchRLで実装しようと思って試していたが、連続環境でのチュートリアルはあるが、いろいろ試したが離散環境に対応することができず断念した。Stable Basel…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。