Stability AI开源图像生成模型Stable Diffusion_AI_Anthony Alford

腾讯亿级用户规模自研业务的上云实践解读，立即报名了解详情 



 写点什么

Stability AI对外发布了Stable Diffusion的预训练模型权重，这是一个文本至图像的 AI 模型。根据文本提示，Stable Diffusion 能够生成逼真的 512x512 像素的图像以描述提示中的场景。

在模型权重公开发布之前，它的代码已经发布，模型权重也有限发布给了研究社区。在最新的版本中，任何用户都可以在消费者级别的硬件中下载并运行 Stable Diffusion。除了文本至图像的生成，该模型还支持图像至图像的风格转换以及图像质量提升。在发布该版本的同时，Stable AI 还发布了 beta 版本的 API 以及模型的 Web UI，名为DreamStudio。Stable AI 这样说到：

Stable Diffusion 是一个文本至图像的模型，它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。在速度和质量方面，它都有所突破，这意味着它能在消费者级别的 GPU 上运行……这能够让研究人员和……公众在各种条件下运行，使图像生成技术走向大众。我们期待围绕该模型和其他模型出现一个开放的生态系统，以探索潜在空间的边界。

Stable Diffusion 基于名为潜在扩散模型（latent diffusion models，LDMs）的图像生成技术。与其他的流行的图像合成方法不同，如生成对抗网络（generative adversarial networks，GANs）和DALL-E使用的自动回归技术，LDMs 通过在一个潜在表示空间中迭代“去噪”数据来生成图像，然后将表示结果解码为完整的图像。LDM 是由Ludwig Maximilian University of Munich的机器视觉与学习（Machine Vision and Learning）研究组开发的，并在最近的 IEEE / CVF 计算机视觉和模式识别会议（Computer Vision and Pattern Recognition Conference）上发表的一篇论文中进行了阐述。在今年早些时候，InfoQ 曾经报道过谷歌的Imagen模型，它是另一个基于扩散的图像生成 AI。

Stable Diffusion 模型支持多种操作。与 DALL-E 类似，它能够根据所需图像的文本描述，生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述，生成一个看起来更逼真的图像。Meta AI 最近发布了名为Make-A-Scene的模型，具有类似的图像至图像的功能。

Stable Diffusion 的很多用户已经公开发布了生成图像的样例，Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多图像。基于 AI 的图像合成可能会对艺术家和艺术领域带来一定的影响，有些评论者对此感到不安。就在 Stable Diffusion 发布的同一周，一幅由 AI 生成的艺术品在科罗拉多州博览会的艺术比赛中获得了一等奖。Django 框架的共同创建者 Simon Williamson认为：

我见过一种说法，认为 AI 艺术没有资格获得版权保护，因为“它必须归功于全人类”——如果基于文本生成的设计尚不足以说服公众的话，那[图像至图像]技术可能会打破这种平衡。

Stable AI 的创始人 Emad Mostaque 在推特上回答了一些关于该模型的问题。在回答一位试图估算训练模型所需的计算资源和成本的用户时，Mostaque 说到：

实际上，我们为这个模型使用了 256 个 A100 显卡，总共 15 万小时，所以按市场价格计算为 60 万美元。

Mostaque 给出了 Reddit 上一篇文章的链接，其中给出了如何最好地使用该模型来生成图像的技巧。

Stable Diffusion 的代码可以在GitHub上找到。模型的权重以及Colab notebook和示例Web UI都可以在 HuggingFace 上找到。

原文链接：

Stability AI Open-Sources Image Generation Model Stable Diffusion

相关阅读：

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

发布

暂无评论

创作场景

Stability AI 开源图像生成模型 Stable Diffusion

评论

运维人必知必会的Zabbix核心命令

CityClub 北京站马上开始！线下沙龙等你来！

Java培训-怎样通过 Bucket4j 提供速率限制

MacOS 系统如何把PHP版本升级到 7.4或者更高的版本呢，今天教程来啦

解决两大难题，TDengine 助力亿咖通打造自动驾驶技术典范

深度学习，如何选择GPU服务器？

入门Python之后还是搞不定面试、做不来项目，推荐读读这本书

创作场景

Stability AI 开源图像生成模型 Stable Diffusion

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载