写点什么

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

  • 2024-06-13
    北京
  • 本文字数:3304 字

    阅读完需:约 11 分钟

大小:1.51M时长:08:49
喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

整理 | 华卫、核子可乐

 

6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

 

要体验 SD3 Medium,可使用 Stability Platform(https://platform.stability.ai/)上的 API,注册 Stable Assistant(https://stability.ai/stable-assistant)以获取三天免费试用,也可通过 Discord 体验 Stable Artisan(https://stability.ai/stable-artisan)。



据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。 模型的大小也是 SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。

 

Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

 

面对 SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

 

SD3 Medium 有何突破性?

 

根据官方说法, SD3 Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:

 

  • 出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过 16 通道 VAE 等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。

  • 提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。

  • 排版功能:凭借 Diffusion Transformer 架构,SD3 Medium 实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。

  • 资源高效:由于所占用的 VRAM 空间小,所以非常适合在标准消费级 GPU 上运行,且不致牺牲模型性能。

  • 微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。

 


使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3 Medium 中生成的示例

 

同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT 增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50%的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。

 

此外,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

 

因人体绘制问题被狂嘲

然而,SD3 Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

 


Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”

 

Reddit 上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了 SD3 Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。

 


Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”。

 

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SD XL Turbo 等 Stability 版本相比。

 




使用 SD3 Medium 创建的三张 AI 生成图像,手部明显残缺不全

 

一位 Reddit 用户写道,“不久之前,Stable Diffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

 

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

 


使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”

 

AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

 

也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

 

2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

 

模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”

 

使用 Hugging Face 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

 


使用“一名男子伸出双手”作为提示词,在 SD3 Medium 中生成的示例

 

结语

 

SD3 Medium 在 Stability 的动荡时期到来。

 

这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。

 

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

 

今年 2 月,Stable Diffusion 3 模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEO Emad Mostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已决定离去。

 

在一部分 Stable Diffusion 粉丝看来,SD3 Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3 Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

 

但无论如何,SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进 SD3 Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3 Medium 成为服务专业人士与业余爱好者的重要工具。

 

参考链接:

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/

2024-06-13 14:336081

评论

发布
暂无评论
发现更多内容

华仔架构训练营作业(模块一)

不听不听王八念晶

重装变态的微信

箭上有毒

生活 4月日更

数据中台前世今生

李孟聊AI

大数据 数据中台 签约计划

微服务网关:Spring Cloud Config-配置中心

程序员架构进阶

Spring Cloud 源码解析 配置中心 28天写作 4月日更

Let's Go 100

escray

学习 Go 语言 4月日更 Go100

从一个创业者的角度看国外爆火音频实时聊天APP-ClubHouse,真香

Langer

产品推荐 产品策略 语音社交

【IDEA】配置MySQL环境并创建MySQL数据库

咿呀呀

Java MySQL 数据库 IDEA

树莓派4B+OpenVINO快速实现人脸识别

IT蜗壳-Tango

音视频 IT蜗壳教学 4月日更

数据结构和算法难?盘他!-快速入门

Aldeo

数据结构 算法 时间复杂度 复杂度 算法和数据结构

翻译:《实用的Python编程》08_02_Logging

codists

Python

年轻人不要老熬夜

小天同学

健康 个人感悟 4月日更 熬夜

2021 年带你漫游语音识别技术

清秋

人工智能 语音识别 智能音箱 签约计划 4月日更

js数组和函数

赫鲁小夫

4月日更

【LeetCode】丑数 IIJava题解

Albert

算法 LeetCode 4月日更

带你厘清事务一致性(中篇)

小舰

4月日更

全网首发:Android Camera2 集成人脸识别算法

小驰笔记

android 音视频 人脸识别 引航计划

如何设计一款用户想要的产品——“Design Thinking”培训笔记

gavin

产品设计 design thinking

ElasticSearch 如何使用 ik 进行中文分词?

程序员历小冰

中文分词 elasticsearch ik 全文搜索

从运营、产品和技术,多角度思考电商的营销体系建设

邴越

电商营销 优惠券

企业签频繁掉签,何处是出路?

风翱

ios 4月日更 企业签 超级签

自定义 Grafana Home 页面

耳东@Erdong

Grafana 4月日更

浅论变量的作用域与变量的生存周期

Integer

c

想要做网页游戏怎么办 ?PixiJs篇(一)

空城机

大前端 游戏开发 4月日更 pixi HTML5游戏

React 学习总结

pydata

Vue 大前端 低代码 React

面试官常考的 21 条 Linux 命令

xcbeyond

Linux 面试 4月日更

美团面试题:String s = new String("111") 会创建几个对象?

Java小咖秀

Java 面试 string java对象

手把手教你基于Prometheus搭建监控告警系统

Java全栈封神

云原生 Prometheus 监控告警

Jenkins教程:使用Jenkins进行持续集成

码语者

DevOps jenkins

推荐一本新书《Software Design for Flexibility: How to Avoid Programming Yourself Into a Corner》

顿晓

推荐书籍 4月日更 SICP flexibility

微服务中台技术解析之网关(dubbo-rest)实践

小江

dubbo 架构设计 api 网关

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之动态表关系管理(六)

crudapi

Vue crud crudapi quasar 表关系

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德_生成式 AI_华卫_InfoQ精选文章