写点什么

谷歌推出文本到图像模型 Muse:生成图片质量更高、推理时间更短

  • 2023-01-05
    北京
  • 本文字数:654 字

    阅读完需:约 2 分钟

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如DALL-E-2Stable DiffusionMidjourney等)的诞生,人工智能研究的进展发生了革命性的变化。

 

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。 

 

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

 

据开发团队介绍,与 Imagen DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti 和其他自回归模型不同,Muse 利用了并行解码。 为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

 

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

 


参考链接:

 

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/

2023-01-05 11:436829
用户头像
李冬梅 加V:busulishang4668

发布了 1114 篇内容, 共 725.4 次阅读, 收获喜欢 1254 次。

关注

评论

发布
暂无评论
发现更多内容

在SAP Fiori界面上的VF03事务

SAP虾客

SAP Fiori SAP S4HANA VF03

10个案例详解AnimatableExtend装饰器定义可动画属性

威哥爱编程

HarmonyOS HarmonyOS NEXT HarmonyOS5.0

又曝新作!阿里P9再出山,操作性超强的Spring源码实践

Summer

Java 编程 程序员 面试 架构师

简单几步!豆包MarsCode 助我魔改前端组件

TRAE

数据驱动商业智能决策 引领品牌迈向高利润之路

第七在线

全面解读TaurusDB透明压缩特性,降低数据库使用成本

华为云开发者联盟

#数据库 MySQL 5.7

SAP QM 客户退货检验的三种实现方案

SAP虾客

SAP S4HANA SAP QM

OpenAI Chatgpt 大语言模型

测吧(北京)科技有限公司

测试

如何使用机器学习,预测客户流失率,轻松实现客户精准维护

Altair RapidMiner

人工智能 机器学习 AI 数据分析 altair

2024华为云开源开发者论坛顺利召开,引领开放创新,共筑数智未来

新消费日报

优雅的@ObservedV2和@Trace装饰器

威哥爱编程

HarmonyOS HarmonyOS框架 HarmonyOS NEXT HarmonyOS5.0

乘数而上、价值释放,数据资产管理的关键步骤与价值解读

袋鼠云数栈

2000道面试必问的Java面试八股文及答案整理(2025版)

Summer

Java 编程 程序员 面试 架构师

公开课 | 提高测试用例编写效率,掌握经典用例设计技巧!

测吧(北京)科技有限公司

测试

公开课 | 提高测试用例编写效率,掌握经典用例设计技巧!

测试人

软件测试

从接口超时到RAID

Qunar技术沙龙

后端 io 优化 raid

【论文速读】| AttackQA:利用微调及开源大语言模型辅助网络安全运营的数据集的开发与应用

云起无垠

小白如何学习看懂CAD图纸?

在路上

cad cad看图 CAD看图软件

从江西上饶6岁女孩跑完马拉松“违规”事件看软件测试的规范与风险管理——打造高效团队的关键

测吧(北京)科技有限公司

测试

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短_文化 & 方法_李冬梅_InfoQ精选文章