国思软件 - Stable Diffusion 3开源秒翻车，画人好掉san

　　明敏发自凹非寺

　　量子位公众号 QbitAI

　　没想到……Stable Diffusion 3 开源即出现翻车案例。

　　生成一个躺在草地上的女孩，结果长这样？

　　而且不是个例，只要是和人（整体）相关的内容，生成结果都有点掉 san。

　　（前方高能）

　　但如果是局部，比如只生成人脸，确实很 nice。

　　清晰度、写字、写实性等方面都有明显提升。

　　对于复杂长提示词的理解也很到位，有网友发现提示越长它画的越好。

　　那么问题来了，为啥偏偏画不好人类？

　　问题可能在于数据集

　　先来看看 SD3 开源的具体情况。

　　本次开源的版本是Stable Diffusion 3 Medium（中杯）。

　　它的规模为20 亿参数，在笔记本上就能跑了。

　　官方强调的属性有 5 方面，逐一来看：

整体质量和写实性

　　可生成出色的细节，包括色彩、光线、强写实等，带来灵活风格的高质量输出。

　　通过 16 通道 VAE，成功解决了其他模型的常见缺陷，比如手部和面部的写实问题。

提示词理解

　　可以理解复杂长提示，包含空间推理、元素组合、动作、风格等。3 个文本编码器可以全部或者组合使用，方便用户平衡性能和显存。

有效利用资源

　　对 VRAM 占用很低，非常适合在消费级 GPU 上运行，且性能不降低。

微调

　　能够利用小数据集微调，方便定制化。

　　目前在 Hugging Face 上已经可以下载模型权重。非商业用途可免费下载使用，商业用途需要先拿授权。

　　那么为啥升级后还是会翻车？

　　有人发现，如果细看“躺在草坪上的女孩”这张图像，会发现它在局部细节上确实还可以，甚至很棒。

　　草地上的影子、衣物上反射的光线、头发的质地……都遵循了物理规律。

　　但人物整体就不敢恭维了。

　　不少网友都认为，这就是问题的关键。

我认为他们的 NSFW 过滤器，把所有人类图像都判定为了 NSFW。

　　这个过滤器全称是filtering out adult content，作用在于过滤掉不合规的成人内容。

　　SD2 发布时就出现过类似的问题，研究人员发现审查这部分内容可能影响了模型对人体结构的理解。

　　后面的 SD2.1 和 SDXL 版本有所缓解。

　　这次 SD3 的翻车，暴露了一个问题：过于严格的数据审核，可能误删了一些无害的成人图像，所以现在模型没法理解人体结构。

　　有网友就阴阳说，没多久之前 SD 还能和 Midjourney 竞争，现在一比，就像个笑话。

至少我们的数据集是安全和合乎道德的。

　　Reddit 上“SD3-2B 发布是个笑话吗”的帖子，热度已经冲到了 800+。

　　当然，除了技术以外的原因，还不少人觉得 SD3 的性能不佳更进一步暴露了 Stability AI 的内部混乱。

我猜他们现在可以安全合规地破产了。

　　欠债 1 亿、疑似求卖身

　　Stability AI 的动荡，从 SD3 开源的一再延期就能窥见端倪。

　　2 月发布模型后，一开始，官方说的是搞完 RLHF 就开源，结果大家伙等了 3 个多月，官方放出的还是只有 API。直到现在，才开源了一个中杯版本。

　　与此同时，公司 CEO Emad 辞职+退出董事会。核心团队也被曝集体离职。

　　今年 5 月，据 The Information 消息，这家初创公司已经面临严重现金短缺：第一季度收入不到 500 万美元，而亏损超过了 3000 万美元。同时欠了云厂商和其他企业近 1 亿美元，“求卖身”的消息不断传出。

　　值得一提的是，消息称 SD3 还将开源更多版本，包括 4B 和 8B。

　　不知道更大版本效果会如何呢？

　　官网传送门：https://stability.ai/news/stable-diffusion-3-medium

　　参考链接：

Stable Diffusion 3开源秒翻车，画人好掉san

我们的产品

相关链接

关于我们

联系我们