TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

2023-07-01から1ヶ月間の記事一覧

floodgateの棋譜の詰みの手数

拡散モデルで将棋の方策の学習を試しているが、詰みの手順も学習できるか試したいと考えている。 そのために、floodgateの棋譜から詰みの局面を抽出した。 また、詰みの手数の統計を調査した。 抽出方法 詰みの局面かの判定には、「KomoringHeights」v1.0.0…

Llama2の70Bモデルを4bit量子化して1GPUで実行する方法

個人メモHugging Faceで公開されているLlama2のモデルを使用して、4bit量子化を有効にして、70Bのモデルを1GPU(A100)で推論する方法について記述する。 dockerコンテナ作成 NVIDIAのPyTorchイメージを使用してDockerコンテナを作成する。 ※ホストのドライバ…

拡散モデルで将棋の方策を学習する その2

前回の続き。 tadaoyamaoka.hatenablog.com前回訓練損失が下がるところまで確認したが、正解率は0%のままだった。 その後学習を継続し、126,504ステップ時点で、訓練損失と正解率は以下の通りとなった。 学習結果 訓練損失 正解率 floodgateの棋譜に対する、…

拡散モデルで将棋の方策を学習する

拡散モデルで、将棋の方策を学習できないか試してみた。 拡散モデル 拡散モデルは、高品質で多様なサンプルを生成できる生成モデルである。 昨年8月にStable Diffusionが公開されたことで注目を集めている。拡散モデルは、確率微分方程式によって表される確…