麻雀AIを深層強化学習で作るその１１(学習処理)

麻雀AI

前回、自己対局で特徴量を作成する処理を実装した。今回は、自己対局で生成したデータを読み込んで学習する処理を実装した。データ読み込み自己対局プログラムでzlibで圧縮したデータをPythonのzlibで解凍し、Numpyのndarrayとして読み込む。 C++の構造体…

将棋AIの棋風学習にLoRAを適用追試

将棋AI

前回、将棋AIのモデルにLoRAを適用して、人間プレイヤーの傾向を学習できることを確かめた。今回、LoRAが通常の追加学習と比較して効率的か比較してみた。また、序盤、中盤、終盤で傾向に違いがあるか検証してみた。追加学習と比較事前学習済みモデルに人…

将棋AI

大規模言語モデルやStable Diffusionなどの拡散モデルのファインチューニングには、LoRAという手法が使われることが多い。全てのパラメータを微調整するよりも効率的に学習できる。LoRAを将棋AIのモデルに適用して、棋風の学習に使えるか試してみた。将棋A…