2023-07-01から1ヶ月間の記事一覧
拡散モデルで将棋の方策の学習を試しているが、詰みの手順も学習できるか試したいと考えている。 そのために、floodgateの棋譜から詰みの局面を抽出した。 また、詰みの手数の統計を調査した。 抽出方法 詰みの局面かの判定には、「KomoringHeights」v1.0.0…
個人メモHugging Faceで公開されているLlama2のモデルを使用して、4bit量子化を有効にして、70Bのモデルを1GPU(A100)で推論する方法について記述する。 dockerコンテナ作成 NVIDIAのPyTorchイメージを使用してDockerコンテナを作成する。 ※ホストのドライバ…
前回の続き。 tadaoyamaoka.hatenablog.com前回訓練損失が下がるところまで確認したが、正解率は0%のままだった。 その後学習を継続し、126,504ステップ時点で、訓練損失と正解率は以下の通りとなった。 学習結果 訓練損失 正解率 floodgateの棋譜に対する、…
拡散モデルで、将棋の方策を学習できないか試してみた。 拡散モデル 拡散モデルは、高品質で多様なサンプルを生成できる生成モデルである。 昨年8月にStable Diffusionが公開されたことで注目を集めている。拡散モデルは、確率微分方程式によって表される確…