TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

将棋AI

将棋AIの棋風学習にLoRAを適用 追試

前回、将棋AIのモデルにLoRAを適用して、人間プレイヤーの傾向を学習できることを確かめた。今回、LoRAが通常の追加学習と比較して効率的か比較してみた。 また、序盤、中盤、終盤で傾向に違いがあるか検証してみた。 追加学習と比較 事前学習済みモデルに人…

将棋AIの棋風学習にLoRAを適用

大規模言語モデルやStable Diffusionなどの拡散モデルのファインチューニングには、LoRAという手法が使われることが多い。 全てのパラメータを微調整するよりも効率的に学習できる。LoRAを将棋AIのモデルに適用して、棋風の学習に使えるか試してみた。 将棋A…

拡散モデルで将棋の方策を学習する その4

前回、マルチGPUで学習できるようにしたので、拡散モデルで将棋の方策を学習してどこまで精度が上がるか確認した。 学習条件 訓練データ:約14億 バッチサイズ:512 学習ステップ:10万ステップ 学習率:1e-4 オプティマイザ:AdamW GPU数:2 検証データ:fl…

拡散モデルで将棋の方策を学習する その3

前回、拡散モデルで将棋の方策を学習できることを確認した。今回は、マルチGPUで学習できるように学習処理をPyTorch Lightningで実装し直す。 LightningCLI LightningCLIを使うと、ハイパーパラメータやオプティマイザの設定をconfigファイルに記述できて便…

将棋AIの進捗 その34(終盤力の強化)

前回の日記からしばらくぶりですが、その間SENetの学習を続けていました。 自己対局中の詰み探索の深さ ディープラーニング+MCTS系は終盤に弱点があるので、dlshogiでは自己対局中にルート局面でdf-pnによる詰み探索を行い、詰みが見つかった場合は、ゲーム…