2023-09-01から1ヶ月間の記事一覧
以前より不完全情報のボードゲームで強化学習のアルゴリズムを試したいと思ってる。 簡単すぎるゲームやマイナーなゲームでは、開発のモチベーションが続かない気がするので、日本で人気のある麻雀AIを開発したいと考えている。麻雀は、「Lucky J」や「Suphx…
前回、マルチGPUで学習できるようにしたので、拡散モデルで将棋の方策を学習してどこまで精度が上がるか確認した。 学習条件 訓練データ:約14億 バッチサイズ:512 学習ステップ:10万ステップ 学習率:1e-4 オプティマイザ:AdamW GPU数:2 検証データ:fl…
前回、拡散モデルで将棋の方策を学習できることを確認した。今回は、マルチGPUで学習できるように学習処理をPyTorch Lightningで実装し直す。 LightningCLI LightningCLIを使うと、ハイパーパラメータやオプティマイザの設定をconfigファイルに記述できて便…