写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005399

评论

发布
暂无评论
发现更多内容

云服务器入门指南:你需要知道的基础知识与选择策略

一只扑棱蛾子

云服务器

数字化供应链助力电子产业高质量发展,华秋2023电子设计与制造技术研讨会成功举办!

华秋电子

PCB设计

低代码平台提升软件开发效率

互联网工科生

软件开发 低代码 JNPF

CAKE OF FORTUNE(蛋糕矿工)BSC链系统开发

l8l259l3365

uni-app 打包ios上架app store流程

如何调用电商API接口获取相关商品的推荐列表?

技术冰糖葫芦

API API 文档

拒绝连锡!3种偷锡焊盘轻松拿捏

华秋电子

PCBA

保姆级连接FusionInsight MRS kerberos Hive

数新网络官方账号

Java hive 华为云 Dbeaver

WebSocket 鉴权实战经验分享

Liam

程序员 前端 后端 网络协议 websocket

欢迎提报 | 2023年龙蜥社区优秀贡献者评选正式启动

OpenAnolis小助手

操作系统 创新 龙蜥社区 优秀贡献者

特斯拉开源 Roadster 文件随便用;微软 Copilot AI 技术开放或不对大陆开放丨 RTE 开发者日报 Vol.92

声网

springboot集成工作流实例分享(源码)

金陵老街

如何使用电商平台API接口?

技术冰糖葫芦

API API Gateway API 文档

耐世特与Tactile Mobility合作的路面探测与早期预警软件获创新奖

财见

SRM采购招投标一体化系统(源码)

金陵老街

招投标 SRM系统 采购系统 供应商管理系统

大型企业资金管理常见6个难题,用友Fast by BIP“快速”破解

用友BIP

资金管理

基于低代码平台搭建应用程序

树上有只程序猿

软件开发 低代码 JNPF

Presto+Alluxio数据平台实战

数新网络官方账号

大数据

最强模型GPT-4 Turbo来了,程序员会失业吗?

伤感汤姆布利柏

人工智能 低代码 chatpt GPT-4 Turbo

【网易云商】构建高效 SaaS 系统的技术要点与最佳实践

网易云信

SaaS 平台

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章