一、基本简介

Stable Diffusion（简称SD）是一种用于生成自然语言文本的人工智能技术，它是由OpenAI开发的。Stable Diffusion是一个基于流程的生成模型，它能够生成高质量、连贯的文本，同时避免了传统生成模型中出现的一些问题，如模型退化、模式崩溃等。
Stable Diffusion Web UI 是OpenAI为了让人们更方便地使用Stable Diffusion技术而推出的一个在线工具。它提供了一个基于Web的用户界面，可以用于生成自然语言文本，包括文本摘要、文章生成、文本扩展等。
NovelAI 是一个使用Stable Diffusion技术的在线创意写作平台。NovelAI利用Stable Diffusion生成器来生成各种类型的文本，包括小说、诗歌、电子邮件、简介等等。它的目标是帮助写作者和其他创意工作者克服创作障碍，提供灵感和文本生成工具，以帮助他们更快地写作、更好地表达自己，主要为二次元风格。
Midjourney 是一款2022年3月面世的AI绘画工具，只要输入想到的文字，就能通过人工智能产出相对应的图片，耗时只有大约一分钟。推出beta版后，这款搭载在Discord社区上的工具迅速成为讨论焦点。不同与Stable Diffusion，不用自己搭建环境，只需科学上网在线访问就行。

二、基本设置

prompt（正面提示词），表示你希望在结果图像中看到的术语。negative prompt（负面提示词），表示你不希望在结果图像中看到的术语。
Width & Height（高度、宽度），要生成的图片尺寸。尺寸越大，越耗性能，耗时越久。
CFG scale（提示词相关性），AI 对描述参数（Prompt）的倾向程度。值越小生成的图片越偏离你的描述，但越符合逻辑；值越大则生成的图片越符合你的描述，但可能不符合逻辑。
sampler（采样方法），采样算法上有差别，没有好坏之分，选用适合的即可。
seed（随机数种子），生成每张图片时的随机种子，这个种子是用来作为确定扩散初始状态的基础。不懂的话，用随机的即可。
steps（采样步长），太小的话采样的随机性会很高，太大的话采样的效率会很低，拒绝概率高，可以理解为没有采样到，采样的结果被舍弃了。

三、常见模型

大模型，特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。由于想要训练一个大模型非常困难，需要极高的显卡算力，所以更多的人选择去训练小型模型。CKPT格式的全称为CheckPoint（检查点），完整模型的常见格式，模型体积较大，一般单个模型的大小在7GB左右，常见的 .safetensors 格式较 .ckpt 格式更安全，不容易遭受反序列化攻击。
小模型，一般都是截取大模型的某一特定部分，虽然不如大模型能力那样完整，但是小而精，因为训练的方向各为明确，所以在生成特定内容的情况下，效果更佳。常见微调模型：Textual inversion (Embedding)、Hypernetwork、VAE、LoRA等，下面一一进行介绍：①VAE（Variational Auto-Encoder 变分自动编码器），负责将潜空间的数据转换为正常图像。后缀格式：后缀一般为.pt格式。类似于滤镜一样的东西，他会影响出图的画面的色彩和某些极其微小的细节。大模型本身里面自带 VAE ，但是并不是所有大模型都适合使用VAE，VAE最好搭配指定的模型，避免出现反效果，降低生成质量。②Textual Inversion（也称为 Embedding），风格模型，即只针对一个风格或一个主题，并将其作为一个模块在生成画作时使用对应TAG在Prompt进行调用。常见格式为pt、png、webp格式，文件体积一般只有几KB。③Hypernetwork，一种使用神经网络来生成模型参数的方法。它可以用来从模型内部找到更多相似的东西，使得生成为近似内容图像，如果你想训练人脸或特定的风格，并且如果你用Hypernetwork生成的 “一切 “看起来都像你的训练数据，那么Hypernetwork是一个不错的选择。你不能生成混合训练的图像，比如一组非常不同风格各异的猫。不过，你可以使用超网络进行绘画，将不同的训练数据纳入一个图像，改变图像的整个输出。生成的模型文件比Embedding大，大约几十MB，通常训练艺术风格，推荐训练画风。④Dreambooth，一种使用少量图像来训练模型的方法，是一种基于深度学习的图像风格转换技术。它可以将一张图片的风格应用到另一张图片上，以生成新的图像，Dreambooth 的一个优点是它可以生成高质量的艺术作品，而无需用户具备专业艺术技能。模型文件很大，2-4GB，适于训练人脸，宠物和物件，使用时需要加载模型，可以进行模型融合，跟其他模型文件融合成新的模型，本地训练时需要高显存（>=12GB），推荐训练人物*画风。⑤Lora，一种使用少量图像来训练模型的方法。与 Dreambooth 不同，LoRA 训练速度更快：当 Dreambooth 需要大约二十分钟才能运行并产生几个 GB 的模型时，LoRA 只需八分钟就能完成训练，并产生约 5MB 的模型，推荐使用kohya_ss GUI 进行lora训练。模型大小适中（8~140MB），使用时只需要加载对应的lora模型，可以多个不同的（lora模型+权重）叠加使用，可以进行lora模型其他模型的融合，本地训练时需要显存适中（>=7GB），推荐训练人物。

四、资源网站

版权声明 1 本网站名称：UU技术社区
2 本站永久网址：https://www.cnuu.net
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ943271422进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END