Basic introduction to Stable Diffusion, an introductory tutorial on Vincentian diagrams

一、基本简介

  1. Stable Diffusion(简称SD) 是一种用于生成自然语言文本的人工智能技术,它是由OpenAI开发的。Stable Diffusion是一个基于流程的生成模型,它能够生成高质量、连贯的文本,同时避免了传统生成模型中出现的一些问题,如模型退化、模式崩溃等。
  2. Stable Diffusion Web UI 是OpenAI为了让人们更方便地使用Stable Diffusion技术而推出的一个在线工具。它提供了一个基于Web的用户界面,可以用于生成自然语言文本,包括文本摘要、文章生成、文本扩展等。
  3. NovelAI 是一个使用Stable Diffusion技术的在线创意写作平台。NovelAI利用Stable Diffusion生成器来生成各种类型的文本,包括小说、诗歌、电子邮件、简介等等。它的目标是帮助写作者和其他创意工作者克服创作障碍,提供灵感和文本生成工具,以帮助他们更快地写作、更好地表达自己,主要为二次元风格。
  4. Midjourney 是一款2022年3月面世的AI绘画工具,只要输入想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。推出beta版后,这款搭载在Discord社区上的工具迅速成为讨论焦点。不同与Stable Diffusion,不用自己搭建环境,只需科学上网在线访问就行。

二、基本设置

  1. prompt(正面提示词),表示你希望在结果图像中看到的术语。negative prompt(负面提示词),表示你不希望在结果图像中看到的术语。
  2. Width & Height(高度、宽度),要生成的图片尺寸。尺寸越大,越耗性能,耗时越久。
  3. CFG scale(提示词相关性),AI 对描述参数(Prompt)的倾向程度。值越小生成的图片越偏离你的描述,但越符合逻辑;值越大则生成的图片越符合你的描述,但可能不符合逻辑。
  4. sampler(采样方法),采样算法上有差别,没有好坏之分,选用适合的即可。
  5. seed(随机数种子),生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。
  6. steps(采样步长),太小的话采样的随机性会很高,太大的话采样的效率会很低,拒绝概率高,可以理解为没有采样到,采样的结果被舍弃了。

三、常见模型

  1. 大模型,特指标准的latent-diffusion模型。拥有完整的TextEncoder、U-Net、VAE。由于想要训练一个大模型非常困难,需要极高的显卡算力,所以更多的人选择去训练小型模型。CKPT格式的全称为CheckPoint(检查点),完整模型的常见格式,模型体积较大,一般单个模型的大小在7GB左右,常见的 .safetensors 格式较 .ckpt 格式更安全,不容易遭受反序列化攻击。
  2. 小模型,一般都是截取大模型的某一特定部分,虽然不如大模型能力那样完整,但是小而精,因为训练的方向各为明确,所以在生成特定内容的情况下,效果更佳。常见微调模型:Textual inversion (Embedding)、Hypernetwork、VAE、LoRA等,下面一一进行介绍:①VAE(Variational Auto-Encoder 变分自动编码器),负责将潜空间的数据转换为正常图像。后缀格式:后缀一般为.pt格式。类似于滤镜一样的东西,他会影响出图的画面的色彩和某些极其微小的细节。大模型本身里面自带 VAE ,但是并不是所有大模型都适合使用VAE,VAE最好搭配指定的模型,避免出现反效果,降低生成质量。②Textual Inversion(也称为 Embedding),风格模型,即只针对一个风格或一个主题,并将其作为一个模块在生成画作时使用对应TAG在Prompt进行调用。常见格式为pt、png、webp格式,文件体积一般只有几KB。③Hypernetwork,一种使用神经网络来生成模型参数的方法。它可以用来从模型内部找到更多相似的东西,使得生成为近似内容图像, 如果你想训练人脸或特定的风格,并且如果你用Hypernetwork生成的 “一切 “看起来都像你的训练数据,那么Hypernetwork是一个不错的选择。你不能生成混合训练的图像,比如一组非常不同风格各异的猫。不过,你可以使用超网络进行绘画,将不同的训练数据纳入一个图像,改变图像的整个输出。生成的模型文件比Embedding大,大约几十MB,通常训练艺术风格,推荐训练画风。④Dreambooth,一种使用少量图像来训练模型的方法,是一种基于深度学习的图像风格转换技术。它可以将一张图片的风格应用到另一张图片上,以生成新的图像,Dreambooth 的一个优点是它可以生成高质量的艺术作品,而无需用户具备专业艺术技能。模型文件很大,2-4GB,适于训练人脸,宠物和物件,使用时需要加载模型,可以进行模型融合,跟其他模型文件融合成新的模型,本地训练时需要高显存(>=12GB),推荐训练人物*画风。⑤Lora,一种使用少量图像来训练模型的方法。与 Dreambooth 不同,LoRA 训练速度更快:当 Dreambooth 需要大约二十分钟才能运行并产生几个 GB 的模型时,LoRA 只需八分钟就能完成训练,并产生约 5MB 的模型,推荐使用kohya_ss GUI 进行lora训练。模型大小适中(8~140MB),使用时只需要加载对应的lora模型,可以多个不同的(lora模型+权重)叠加使用,可以进行lora模型其他模型的融合,本地训练时需要显存适中(>=7GB),推荐训练人物。

四、资源网站

  1. Huggingface:Stable Diffusion、ControlNet的官方仓库。
  2. Civitai: 模型资源 国内也称C站
  3. https://rentry.org/sdmodels
  4. 知乎总结的资源网站
© Copyright Notice
THE END
If you like it, please support it.
like11 Share
Comment Grab the sofa
avatar
Welcome to leave valuable insights!
submit
avatar

Nick name

Cancel
Nick nameexpressioncodepicture

    There are currently no comments available