Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

谷歌推出文本到图像模型 Muse:生成图片质量更高、推理时间更短

  • 2023-01-05
    北京
  • 本文字数:654 字

    阅读完需:约 2 分钟

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如DALL-E-2Stable DiffusionMidjourney等)的诞生,人工智能研究的进展发生了革命性的变化。

 

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。 

 

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

 

据开发团队介绍,与 Imagen DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti 和其他自回归模型不同,Muse 利用了并行解码。 为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

 

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

 

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

 


参考链接:

 

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/

2023-01-05 11:436977
用户头像
李冬梅 加V:busulishang4668

发布了 1175 篇内容, 共 791.2 次阅读, 收获喜欢 1296 次。

关注

评论

发布
暂无评论
发现更多内容

人工智能 | 自动驾驶与城市规划

测吧(北京)科技有限公司

测试

人工智能 | AI驾驶系统:改变汽车产业的革命

测吧(北京)科技有限公司

测试

[大厂实践] 重新发明后端子集

俞凡

算法 Google 大厂实践

🔥🔥🔥还没搞懂嵌入(Embedding)、微调(Fine-tuning)和提示工程(Prompt Engineering)?

石头爱分享

Embedding openai AIGC GPT-4 prompt 工程

用友招聘云助力中企出海,充盈全球化人才蓄水池

用友BIP

招聘 中企出海

大模型训练:文本分类的未来之路

百度开发者中心

大模型训练 #人工智能

🔥🔥🔥序幕:AIGC 进入“平民化”时代

石头爱分享

AI openai AIGC GPT-4 MidJourney

如何有效的给出反馈(二)

ShineScrum

反馈 敏捷教练 敏捷教练引导 高管

人工智能 | 自动驾驶与卫星导航

测吧(北京)科技有限公司

测试

城市交通的未来服务:迎接便捷、可持续和智能的交通体验

测吧(北京)科技有限公司

测试

预训练模型在NLP中的应用与优化

百度开发者中心

自然语言处理 大模型训练 #人工智能

强化学习与深度学习相结合的新趋势

百度开发者中心

#人工智能 LLM 大语言模型

人工智能 | 无人驾驶汽车:道路安全和效率的未来

测吧(北京)科技有限公司

测试

华为云CodeArts Check代码检查插件(CodeArts IDE本地版本)使用指南

云计算 软件开发 华为云 代码检查

人工智能 | 自动驾驶汽车的未来:道路安全与出行革命

测吧(北京)科技有限公司

测试

人工智能 | 革命性的物流与运输

测吧(北京)科技有限公司

测试

七张图解锁Mybatis整体脉络,让你轻松拿捏面试官

小小怪下士

Java 程序员 mybatis

实现语言理解与生成的新前沿

百度开发者中心

大模型训练 #人工智能 LLM

人工智能—走向智能化生活

测吧(北京)科技有限公司

测试

人工智能 | 机器学习与自动驾驶

测吧(北京)科技有限公司

测试

中企全球化案例-能源业:“1+2+3+N”,建设全球领先的智慧司库平台

用友BIP

全球司库 中企出海

人工智能 | 自动驾驶技术:实现未来的智能交通

测吧(北京)科技有限公司

测试

人工智能 | 自动驾驶的伦理挑战

测吧(北京)科技有限公司

测试

如何精细化管理嵌入式软件项目?ACT汽车电子与软件技术周演讲回顾

龙智—DevSecOps解决方案

深度学习与预训练语言的突破

百度开发者中心

自然语言处理 大模型训练 人工智能「

优化模型之“平均检出率”

矩视智能

深度学习 机器视觉

人工智能 | AI驾驶系统的安全性

测吧(北京)科技有限公司

测试

身为产品经理该如何向客户推广API商品数据接口

Noah

API接口文档 API 安全 API 接口

🔥🔥🔥 计算机视觉 GPT-4V 它来了!

石头爱分享

VQA openai AIGC GPT MidJourney

一文教你如何发挥好 TDengine Grafana 插件作用

TDengine

时序数据库 ​TDengine

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短_文化 & 方法_李冬梅_InfoQ精选文章