一、基本简介
- Stable Diffusion(简称SD) 是一种用于生成自然语言文本的人工智能技术,它是由OpenAI开发的。Stable Diffusion是一个基于流程的生成模型,它能够生成高质量、连贯的文本,同时避免了传统生成模型中出现的一些问题,如模型退化、模式崩溃等。
- Stable Diffusion Web UI 是OpenAI为了让人们更方便地使用Stable Diffusion技术而推出的一个在线工具。它提供了一个基于Web的用户界面,可以用于生成自然语言文本,包括文本摘要、文章生成、文本扩展等。
- NovelAI 是一个使用Stable Diffusion技术的在线创意写作平台。NovelAI利用Stable Diffusion生成器来生成各种类型的文本,包括小说、诗歌、电子邮件、简介等等。它的目标是帮助写作者和其他创意工作者克服创作障碍,提供灵感和文本生成工具,以帮助他们更快地写作、更好地表达自己,主要为二次元风格。
- Midjourney 是一款2022年3月面世的AI绘画工具,只要输入想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。不同与Stable Diffusion,不用自己搭建环境,只需科学上网在线访问就行。
二、基本设置
- prompt(正面提示词),表示你希望在结果图像中看到的术语。negative prompt(负面提示词),表示你不希望在结果图像中看到的术语。
- Width & Height(高度、宽度),要生成的图片尺寸。尺寸越大,越耗性能,耗时越久。
- CFG scale(提示词相关性),AI 对描述参数(Prompt)的倾向程度。值越小生成的图片越偏离你的描述,但越符合逻辑;值越大则生成的图片越符合你的描述,但可能不符合逻辑。
- sampler(采样方法),采样算法上有差别,没有好坏之分,选用适合的即可。
- seed(随机数种子),生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。
- steps(采样步长),太小的话采样的随机性会很高,太大的话采样的效率会很低,拒绝概率高,可以理解为没有采样到,采样的结果被舍弃了。
三、常见模型
- 大模型,特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。由于想要训练一个大模型非常困难,需要极高的显卡算力,所以更多的人选择去训练小型模型。CKPT格式的全称为CheckPoint(检查点),完整模型的常见格式,模型体积较大,一般单个模型的大小在7GB左右,常见的 .safetensors 格式较 .ckpt 格式更安全,不容易遭受反序列化攻击。
- 小模型,一般都是截取大模型的某一特定部分,虽然不如大模型能力那样完整,但是小而精,因为训练的方向各为明确,所以在生成特定内容的情况下,效果更佳。常见微调模型:Textual inversion (Embedding)、Hypernetwork、VAE、LoRA等,下面一一进行介绍:①VAE(Variational Auto-Encoder 变分自动编码器),负责将潜空间的数据转换为正常图像。后缀格式:后缀一般为.pt格式。类似于滤镜一样的东西,他会影响出图的画面的色彩和某些极其微小的细节。大模型本身里面自带 VAE ,但是并不是所有大模型都适合使用VAE,VAE最好搭配指定的模型,避免出现反效果,降低生成质量。②Textual Inversion(也称为 Embedding),风格模型,即只针对一个风格或一个主题,并将其作为一个模块在生成画作时使用对应TAG在Prompt进行调用。常见格式为pt、png、webp格式,文件体积一般只有几KB。③Hypernetwork,一种使用神经网络来生成模型参数的方法。它可以用来从模型内部找到更多相似的东西,使得生成为近似内容图像, 如果你想训练人脸或特定的风格,并且如果你用Hypernetwork生成的 “一切 “看起来都像你的训练数据,那么Hypernetwork是一个不错的选择。你不能生成混合训练的图像,比如一组非常不同风格各异的猫。不过,你可以使用超网络进行绘画,将不同的训练数据纳入一个图像,改变图像的整个输出。生成的模型文件比Embedding大,大约几十MB,通常训练艺术风格,推荐训练画风。④Dreambooth,一种使用少量图像来训练模型的方法,是一种基于深度学习的图像风格转换技术。它可以将一张图片的风格应用到另一张图片上,以生成新的图像,Dreambooth 的一个优点是它可以生成高质量的艺术作品,而无需用户具备专业艺术技能。模型文件很大,2-4GB,适于训练人脸,宠物和物件,使用时需要加载模型,可以进行模型融合,跟其他模型文件融合成新的模型,本地训练时需要高显存(>=12GB),推荐训练人物*画风。⑤Lora,一种使用少量图像来训练模型的方法。与 Dreambooth 不同,LoRA 训练速度更快:当 Dreambooth 需要大约二十分钟才能运行并产生几个 GB 的模型时,LoRA 只需八分钟就能完成训练,并产生约 5MB 的模型,推荐使用kohya_ss GUI 进行lora训练。模型大小适中(8~140MB),使用时只需要加载对应的lora模型,可以多个不同的(lora模型+权重)叠加使用,可以进行lora模型其他模型的融合,本地训练时需要显存适中(>=7GB),推荐训练人物。
四、资源网站
© 版权声明
THE END
暂无评论内容