WaifuDiffusion v1.4 概要ふんわり翻訳
最初に
原文はこちらからどうぞ。
この翻訳は機械翻訳(DeepL翻訳)と英語力0の人間の意訳で作られており正確でありません。英語が読める人は絶対に原文を読んで下さい。
ちょっと分かりづらいかな?というところにはなんとなく追記してあります。
Waifu Diffusion v1.4 概要
この画像は解像度512x512で生成された画像をWaifu Diffusion 1.3 Epoch 7で1024x1024にアップスケールし、高解像度での反復精錬を実証したもの。
ゴール
トレーニング時に条件付きマスキングを使用し、異なるアスペクト比での画像生成を改善する。これにより中央で切り取られた画像ではなく画像全体をトレーニングに使用することとなり、全身画像やポートレートの生成、構図の改善において、より良い結果を得ることができるようになります。
つまり?
正方形以外の画像も含め、より良い画像生成ができるように。
入力コンテキストを77トークンから231トークン、あるいは無制限に拡張。現在77個の入力用トークンのうち、使用可能なのは75個だけです。これでは多くのディテールを必要とする複雑なプロンプトに対して、ほとんど十分な余地がありません。
顔生成と手のパフォーマンスを向上させるために、より高い画像解像度でトレーニングする。512x512の解像度ではVAEによって多くの詳細が保持されないため、学習中にモデルの学習効率が悪くなっており、より細かい詳細の生成でモデルの能力を向上させるためにより多くのサンプルが必要になります。そこで、学習時に使用する画像解像度は、最大768x768としました。
つまり?
学習に使う画像の解像度を最大768x768にして顔や手などの精度を上げます。
booruスタイルタグの代わりに自然言語キャプションを持つ画像を生成する際に、推論中のモデルを導くのに役立つより良い構図認識。現在、合成は学習データで使用されたbooru-styleタグから暗黙的に行われるだけで、hakurei reimu is eating a cheeseburger のような自然言語のプロンプトを使用した場合、モデルのガイド性が低くなっています。
つまり?
単語だけでなく文章のプロンプトを使えるようにします。
無条件生成で分類器不要のガイダンスを実現。Waifu Diffusion 1.3の学習過程では無条件生成は行っていません。これにより生成中にモデル自身の知識を使うことができるようになり、より少ないプロンプトで能力を発揮できるようになります。
つまり?
すみませんよく分かりません…
参考文献紹介 ※ 英語です
High-Resolution Image Synthesis with Latent Diffusion Models
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
データ収集
トレーニングに使用するデータは、2つのスタイルで構成されます。
- 構図キャプション 画像の構図を保持するために、Booruキャプションが画像の構図を暗示するのではなく、構図を設定するようにモデルを明示的に誘導するために、構図キャプションを使用する。
- Booruキャプション 服装や表情など、より細かいディテールをガイドできるように、Booruキャプションを搭載する予定です。
つまり?
v1.4ではDanbooruのタグとは別に画像の構図を指示するための説明を追加し、それを使って構図を指定することができるようになります。
第一段階の学習データ量は500万枚で、第二段階の学習では、美的スコアが低すぎる画像を排除するために、美的CLIPスコアリングを使用します。この方法により、より信頼性の高い美的感覚を持つ画像を生成するようモデルを誘導します。Booruデータセットはbooru-textimと呼ばれ、自然言語からアニメスタイルの画像を生成する画像生成モデルの学習に使用される予定です。このデータセットは、投稿ID、ファイルURL、構図キャプション、booruキャプション、美的CLIPスコアから構成されています。CLIPスコアが6.0以上の画像は100万枚程度を想定しています。
つまり?
まずBooruデータセットに含まれる500万枚の画像を学習に使用した後、CLIPスコアと呼ばれる画像の美しさを表す数値が6.0以上の画像を追加学習します。
トレーニング
ハードウェア
Stable Diffusion v1モデルの微調整には、8つのA100 80GB GPUと192GBのRAMを搭載したノードを使用する予定です。これにより、学習時に使用するバッチサイズが十分に大きくなり、スループットの向上と学習時間の大幅な短縮を実現します。
フェーズ1
学習はWaifu Diffusion v1.3 5epochから開始し、全体の学習解像度を768x768にして15epoch、もしくは品質の向上が見られなくなるまで継続します。学習フェーズ1では、構図キャプションとBooruキャプションの両方からアニメ調の画像を生成するためのベースラインとしてモデルを使用することができるようになります。
フェーズ2
フェーズ1終了後、booru-textimデータセットのうち、CLIPスコアが6.0以上のアイテムに対してさらに学習を開始し、全データセットで学習したベースラインモデルと比較して、より高品質な画像を生成する能力を向上させる。この学習は5epoch、もしくは視覚的な品質の向上が見られなくなるまで継続されます。
リリース
Waifu Diffusion 1.4とboor-textimは、学習が完了したらBigScience RAIL License v1.0に基づいてHuggingFaceで一般に公開される予定です。両トレーニングフェーズのモデルは、waifu-diffusion-1-4-base.ckpt と waifu-diffusion-1-4-aesthetic.ckpt という別々のモデルとしてリリースされる予定です。
つまり?
フェーズ1とフェーズ2で別々のモデルとしてHuggingFaceで公開されます。
免責事項
このプロジェクトは、Danbooruや他のboorus、イメージボードとは全く関係ありません。