AICon 深圳站聚焦 Agent 技术、应用与生态,大咖分享实战干货 了解详情
写点什么

谷歌推出文本到图像模型 Muse:生成图片质量更高、推理时间更短

  • 2023-01-05
    北京
  • 本文字数:654 字

    阅读完需:约 2 分钟

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如DALL-E-2Stable DiffusionMidjourney等)的诞生,人工智能研究的进展发生了革命性的变化。

 

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。 

 

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

 

据开发团队介绍,与 Imagen DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti 和其他自回归模型不同,Muse 利用了并行解码。 为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

 

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

 


参考链接:

 

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/

2023-01-05 11:436900
用户头像
李冬梅 加V:busulishang4668

发布了 1131 篇内容, 共 751.7 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论
发现更多内容

Flink CDC 项目 GitHub star 破 2000,新增 Maintainer 成员

Apache Flink

大数据 flink 开源 编程 实时计算

java培训:22道springboot高频面试题

@零度

JAVA开发 springboot

2022北京智慧工地-招商报名中

InfoQ_caf7dbb9aa8a

智慧工地展览会

销售CRM系统解决方案

低代码小观

销售管理 CRM 企业管理系统 CRM系统 客户关系管理系统

低代码和无代码的注意事项

禅道项目管理

低代码 开发 无代码

反射解析与使用

Puciu

2022-03微软漏洞通告

火绒安全

漏洞 漏洞修复 远程代码执行

开源,从一个轮子说起|趣说开源

腾源会

开源 腾源会

WMS仓储管理系统解决方案

源字节1号

开源 前端开发 后端开发 WMS仓库管理

Go语言使用gorm对MySQL进行性能测试

FunTester

Go MySQL 性能测试 gorm FunTester

大咖说|阿里巴巴闻佳:数字技术将引领我们走向节能型社会

大咖说

阿里巴巴 数字化 环保 双碳

大数据培训:Spark性能调优与参数配置

@零度

大数据 spark

业务系统安全工程在阿里的实践|阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 云原生 系统安全 研发

围观报名中-2022北京物联网博览会

InfoQ_caf7dbb9aa8a

物联网

帮助企业实现客户服务自动化的方式

小炮

一眼定位问题,函数计算发布日志关键词秒检索功能

Serverless Devs

阿里云 Faas 函数

JavaScript 基础(三):数组和对象

devpoint

JavaScript 数组 对象 3月月更

阿里巴巴监管控一体化运维|阿里巴巴DevOps实践指南

阿里云云效

云计算 阿里云 运维 云原生 研发

Redis实现排名

自由

后端开发

【过等保】2022年过等保常见问题解答

行云管家

网络安全 等保 等保2.0

1688 复杂业务场景下的 Serverless 提效实践

Serverless Devs

阿里云 电商 1688

两行代码助你搞定SAST(静态应用程序安全测试)

极狐GitLab

gitlab security

软件商店上新:石墨文档、Shotcut 等 5 款便捷办公类软件上线!

优麒麟

Linux 生态 优麒麟 石墨文档 办公软件

FabEdge 成为 CNCF 沙箱级项目

BoCloud博云

边缘计算 cncf 开源技术

2022阿里云采购季,移动研发平台EMAS爆款清单来袭

移动研发平台EMAS

阿里云 开发者 emas 采购季 移动研发

二维码的应用技术

源字节1号

开源 前端开发 二维码 后端、

如何解决海量数据更新场景下的Mysql死锁问题

领创集团Advance Intelligence Group

MySQL

2021年第4季度记账理财应用监测,头部集聚加强,领跑者转型发展

易观分析

理财 记账

为什么要学习togaf的不完全分析

spark

企业架构 架构师 TOGAF 软件架构师

Docker原理——启动时的icc标志的原理

kof11321

Docker docker网络

揭秘字节跳动云原生Spark History 服务 UIService

字节跳动数据平台

大数据 spark 字节跳动 湖仓一体

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短_文化 & 方法_李冬梅_InfoQ精选文章