2025云栖大会,开启通往AGI的未来之旅 了解详情
写点什么

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

  • 2024-06-13
    北京
  • 本文字数:3304 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:49
喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

整理 | 华卫、核子可乐

 

6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

 

要体验 SD3 Medium,可使用 Stability Platform(https://platform.stability.ai/)上的 API,注册 Stable Assistant(https://stability.ai/stable-assistant)以获取三天免费试用,也可通过 Discord 体验 Stable Artisan(https://stability.ai/stable-artisan)。



据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。 模型的大小也是 SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。

 

Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

 

面对 SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

 

SD3 Medium 有何突破性?

 

根据官方说法, SD3 Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:

 

  • 出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过 16 通道 VAE 等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。

  • 提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。

  • 排版功能:凭借 Diffusion Transformer 架构,SD3 Medium 实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。

  • 资源高效:由于所占用的 VRAM 空间小,所以非常适合在标准消费级 GPU 上运行,且不致牺牲模型性能。

  • 微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。

 


使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3 Medium 中生成的示例

 

同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50%的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。

 

此外,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

 

因人体绘制问题被狂嘲

然而,SD3 Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

 


Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”

 

Reddit 上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了 SD3 Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。

 


Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”。

 

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SD XL Turbo 等 Stability 版本相比。

 




使用 SD3 Medium 创建的三张 AI 生成图像,手部明显残缺不全

 

一位 Reddit 用户写道,“不久之前,Stable Diffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

 

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

 


使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”

 

AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

 

也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

 

2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

 

模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”

 

使用 Hugging Face 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

 


使用“一名男子伸出双手”作为提示词,在 SD3 Medium 中生成的示例

 

结语

 

SD3 Medium 在 Stability 的动荡时期到来。

 

这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。

 

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

 

今年 2 月,Stable Diffusion 3 模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEO Emad Mostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已决定离去。

 

在一部分 Stable Diffusion 粉丝看来,SD3 Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3 Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

 

但无论如何,SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进 SD3 Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3 Medium 成为服务专业人士与业余爱好者的重要工具。

 

参考链接:

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/

2024-06-13 14:336183

评论

发布
暂无评论
发现更多内容

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云大数据AI技术

人工智能 深度思考 大模型 模型蒸馏 DistilQwen2.5

如何使用通义灵码辅助开发微信小程序

阿里云云效

微信小程序 云计算

11Labs 发布 MCP 服务器,在 Claude 秒建语音智能体;通义开源 3D 数字人,集成实时互动对话全链路 SDK

声网

低代码平台终极拷问:NocoBase 像「乐高套装」,iVX 更像「3D 打印机」?

代码制造者

低代码开发 无代码平台

手把手教你用爬虫技术抓取1688商品详情与实现关键字搜索API——实战干货分享

代码忍者

1688API接口

腾讯Bugly:当AI大模型为鸿蒙应用体验注入「智慧基因」

新消费日报

安全的企业局域网聊天工具哪个好用?

BeeWorks

即时通讯 IM 私有化部署 企业级应用

CloudWeGo 2025 黑客松报名指南

字节跳动开源

字节跳动 黑客马拉松 CloudWeGo hertz Eino

AI口语练习App的技术架构

北京木奇移动技术有限公司

AI技术 软件外包公司 AI口语练习

2025Q1大模型中标成绩出炉,百度智能云成为大模型“标王”

科技热闻

zk基础—zk实现分布式功能

不在线第一只蜗牛

分布式

企业上云后,SRE认证为何成为企业“新宠”?

雅菲奥朗

SRE ITIL SRE培训 SRE认证

添加DNS解析记录提示解析冲突是怎么回事?(国科云)

国科云

鸿蒙APP开发的技术架构

北京木奇移动技术有限公司

鸿蒙app 软件外包公司 APP外包公司

手把手教你用爬虫抓取1688商品详情和店铺全量商品API接口——从零到实战

代码忍者

1688API接口

私有化IM即时通讯,稳定安全的企业内部聊天软件BeeWorks

BeeWorks

即时通讯 IM 私有化部署 企业级应用

shopeeAPI 系列:商品列表接口接入与应用

tbapi

Shopee shopee商品列表接口

为什么学习设计模式?

电子尖叫食人鱼

学习 设计模式

CrossOver玩游戏兼容性怎么样?CrossOver无法运行游戏怎么办?

阿拉灯神丁

游戏 兼容性测试 M2芯片 CrossOver Mac下载 Mac电脑软件

Java AI智能编码助手:通义灵码安装和使用指南

阿里巴巴云原生

Java 人工智能 云计算

2025年GitHub Star增长最快的15个开源低代码项目

NocoBase

GitHub 开源 低代码 零代码 无代码

区块链智能合约的安全性

北京木奇移动技术有限公司

智能合约 区块链技术 软件外包公司

2025杭州国际机器人展览会

AIOTE智博会

机器人展 智能机器人展 人形机器人展

诚邀加入天翼云用户体验官计划:您的洞察,重塑科技边界!

天翼云开发者社区

云计算

通义灵码 - HTML智能编码辅助AI工具

阿里云云效

人工智能 云计算

2025 中国人工智能教育大会召开,和鲸x智谱推出人工智能通识教育方案

ModelWhale

人工智能 高等教育 通识课 人工智能通识课

虚拟表 + 高效写入 + 流计算优化,时序数据库 TDengine 3.3.6.0 重构核心体验

TDengine

数据库 tdengine 时序数据库

Java AI智能编码助手:通义灵码安装和使用指南

阿里云云效

Java AI

安全运营 | 第十期「纵深防护·极智运营」度安讲技术沙龙成功举办

百度安全

如何使用通义灵码辅助开发微信小程序

阿里巴巴云原生

快速业务扩张下,App混合开发成必然选择

xuyinyin

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德_生成式 AI_华卫_InfoQ精选文章