投稿

WaifuDiffusion v1.3におけるネガティブプロンプトの効果 上半身編

イメージ
 WaifuDiffusion v1.3におけるネガティブプロンプトの効果 上半身編 本題 さっそく本題から行きます、量がすごいので。 ・実行環境はStableDiffusion WebUI/AUTOMATIC1111最新版 ・使用モデルはWaifuDiffusion v1.3 + VAE ・Steps 30, CFG Scale 7.5, Sampler Euler a ・呪文とネガティブプロンプトなしの画像は以下 (masterpiece:1.3), best quality, 1girl, upper body, hand up, long blonde hair, pale blue eyes, wind, outdoors, smile ・画像左上にネガティブプロンプトの単語 ugly duplicate morbid mutilated tranny hermaphrodite extra fingers mutated hands poorly drawn hands poorly drawn face mutation deformed bad anatomy bad proportions extra limbs cloned face disfigured groww proportions malformed limbs missing arms missing legs extra arms extra legs fused fingers too many fingers long neck lowres bad hands text error missing fingers extra digit fewer digits cropped worst quality low quality normal quality jpeg artifacts signature watermark username blurry bad art messy drawing flesh pile snuggled そしてこの結果を踏まえて作ったネガティブプロンプトとそれを使用した画像が以下。 hermaphrodite, tranny, bad proportions, flesh pile, mutation, cloned face, disf

Danbooruは本当に違法転載サイトか?

イメージ
はじめに   最初に結論を書いておくと「 実際に裁判にならないとわからない 」です。私は弁護士でもなんでもない一般人ですし、これはちょっとした疑問から自分なりに調べてみたことを載せたただのコラムです。 更に言うと調べたのは日本国内における「引用」関連のことだけなので、海外でどういう扱いとなっているかは分かりません。流石に法律について機械翻訳で調べるのは限界があるので。 引用か、転載か まず他人の著作物を転載する場合についての詳細は以下の記事を参照してください。 トップコート国際法律事務所:著作権の引用とは?画像や文章を転載する際の5つの条件・ルール こちらの正確性については弁護士サービス事務所ということで問題ないと思われます。 そして、転載が違法とならないのは以下の場合です。 そもそも著作物ではない 著作者の許可を得ている 引用 転載が許される場合(著作権法32条2項、39条、40条) トップコート国際法律事務所:著作権の引用とは?画像や文章を転載する際の5つの条件・ルール  より引用 この中でDanbooruが関わるのは3.引用のみ…と言いたいところですが実は1.そもそも著作物ではないという可能性があります。しかしこれは本題ではないので後に回します。 では引用とは何なのかというと、次の全てを満たした時に引用となります。 主従関係が明確であること(明確性) 引用部分が他とはっきりと区別されていること(明瞭区別性) 引用をする必要性があること(必要性) 出典元が明記されていること(出典) 改変しないこと トップコート国際法律事務所:著作権の引用とは?画像や文章を転載する際の5つの条件・ルール  より引用 では一つ一つ見ていきましょう。まずDanbooruにアップロードされた作品のページを見てみます。これは無作為に選んだもので、特に意図などはありません。 Danbooru:uma (original) 2022/10/05時点のDanbooruの作品ページスクリーンショット ちょっと脱線しますが、スクリーンショットも引用になるんでしょうか?描画しているのはブラウザで、元はHTMLであることを考えると著作権が発生するのは画像部分のみな気もしますが…これも一旦置いておきます。 ではまず1の主従関係の明確性ですが、ここは正直かなり解釈によると思います。なので個人的な解釈を書き

WaifuDiffusion v1.4 概要ふんわり翻訳

イメージ
最初に   原文はこちらからどうぞ。 Waifu Diffusion v1.4 overview この翻訳は機械翻訳( DeepL翻訳 )と英語力0の人間の意訳で作られており正確でありません。英語が読める人は絶対に原文を読んで下さい。 ちょっと分かりづらいかな?というところにはなんとなく追記してあります。 Waifu Diffusion v1.4 概要 この画像は解像度512x512で生成された画像をWaifu Diffusion 1.3 Epoch 7で1024x1024にアップスケールし、高解像度での反復精錬を実証したもの。 ゴール トレーニング時に条件付きマスキングを使用し、 異なるアスペクト比での画像生成を改善する 。これにより中央で切り取られた画像ではなく画像全体をトレーニングに使用することとなり、全身画像やポートレートの生成、構図の改善において、より良い結果を得ることができるようになります。 つまり? 正方形以外の画像も含め、より良い画像生成ができるように。 入力コンテキストを77トークンから 231トークン、あるいは無制限に拡張 。現在77個の入力用トークンのうち、使用可能なのは75個だけです。これでは多くのディテールを必要とする複雑なプロンプトに対して、ほとんど十分な余地がありません。 顔生成と手のパフォーマンスを向上させるために、 より高い画像解像度でトレーニングする 。512x512の解像度ではVAEによって多くの詳細が保持されないため、学習中にモデルの学習効率が悪くなっており、より細かい詳細の生成でモデルの能力を向上させるためにより多くのサンプルが必要になります。そこで、学習時に使用する画像解像度は、最大768x768としました。 つまり? 学習に使う画像の解像度を最大768x768にして顔や手などの精度を上げます。 booruスタイルタグの代わりに自然言語キャプションを持つ画像を生成する際に、推論中のモデルを導くのに役立つ より良い構図認識 。現在、合成は学習データで使用されたbooru-styleタグから暗黙的に行われるだけで、 hakurei reimu is eating a cheeseburger のような 自然言語のプロンプトを使用した場合、モデルのガイド性が低くなっています。 つまり? 単語だけでなく文章のプロンプトを使えるよう