いらすとやでDreamboothを試す - TadaoYamaokaの開発日記

先日、いらすとやの画像でTextual Inversionを試したが、今回は同じく数枚の画像でスタイルを学習するDreamboothを試してみる。

Dreamboothは、元は、GoogleのImagenに対して適用された手法だが、Stable Diffusionに適用できるようにした実装が公開されたので、それを使って試してみた。
GitHub - XavierXiao/Dreambooth-Stable-Diffusion: Implementation of Dreambooth (https://arxiv.org/abs/2208.12242) with Stable Diffusion

Textual Inversionは、新しい単語の埋め込みベクトルを学習するのに対して、Dreamboothは、出現頻度の少ない既存の単語を使用し、それを条件として拡散モデルのパラメータを更新する。
上記のStable Dffusionの実装では、単語として「sks」が使用される。
「sks」は、任意のクラス(「犬」など)を修飾する語として使用される。

学習データ

いらすとやの「猫」の画像を使用する。
以下の12枚の画像を用いた。

正則化のために同じクラスの画像が200枚必要になるため、Stable Diffusionで「a photo of a cat」というプロンプトで生成した。
リポジトリにはプロンプトから画像を生成するスクリプトも用意されている。

学習手順

GitHubのREADMEの通りに実行すれば、問題なく実行できた。

python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml \
        -t --actual_resume /work/stable-diffusion-v-1-4-original/sd-v1-4-full-ema.ckpt \
        -n cat \
        --gpus 0, \
        --data_root training/images \
        --reg_data_root regularization/images \
        --class_word cat

デフォルトで800ステップの学習が行われる。
学習時間はA100で、10分くらいで完了した。