写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005459

评论

发布
暂无评论
发现更多内容

AI前沿速报0428:95%开发人员在用AI编程

AI探险家小新

人工智能 编程 程序员 新闻资讯 ChatGPT

华秋干货铺 | PCB阻抗计算的可制造性设计

华秋电子

说一个大家都知道的 Spring Boot 小细节!

江南一点雨

Java springboot

TiDB x Flink x Iceberg 实时 ODS 实践

TiDB 社区干货传送门

Spring Boot扩展:深入分析 IoC 容器

Java你猿哥

Java spring ssm 架构师 spring ioc

你真的理解 Golang 切片吗?全切片表达式及切片使用技巧

宇宙之一粟

Go 切片 三周年连更

TiDB x Flink 数据集成实践

TiDB 社区干货传送门

人类 vs AI:玩梗大作战,看看谁是最后的赢家?

LigaAI

测评 ChatGPT 文心一言 GPT-4 企业号 4 月 PK 榜

大白话讲解synchronized锁升级套路

政务智能办体验升级、乳腺癌创新药加速研发,飞桨和文心大模型驱动应用智能涌现

飞桨PaddlePaddle

百度飞桨

聊聊智能语音交互系统

轻口味

AI 三周年连更

汽车电阻:新能源时代来临,车用电阻市场机遇正在显现

华秋电子

牛皮!GitHub上标星90.6K的Java面试指南+笔记

Java你猿哥

Java 程序员 面试 ssm java核心知识点

Java面试很难?啃完阿里老哥这套Java架构速成笔记,我都能拿30K

Java你猿哥

Java 架构 面试 分布式 java基础

vivo 推送系统的容灾建设与实践

vivo互联网技术

容灾 推送系统

视频剪辑工具:Final Cut Pro 中文版

真大的脸盆

Mac 视频剪辑 Mac 软件 视频处理工具

IntelliJ IDEA太重量级了?不妨尝试一下新的IDE工具

Java你猿哥

Java emacs ssm IDEA IntelliJ IDEA

boot-admin整合Quartz实现动态管理定时任务

Java你猿哥

Java 架构 ssm vue admin springboot整合quartz

【4.21-4.28】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

阿里大佬纯手写Angular和Spring Boot全栈技能修炼手册

Java Spring Boot angular 全栈

Alibaba内部首发“M8级”500页微服务架构手册,GitHub上杀疯了

Java你猿哥

Java 架构 微服务 ssm 架构师

看完这篇推特视频怎么下载到手机相册的教程,我又可以了!

frank

twitter

我用Bitmap实现亿级数据统计

Java你猿哥

Java redis 架构 ssm BitMap

赋能产业新发展,华秋电子携多高层板积极参与成都工博会

华秋电子

一文理清 TiDB 与 MySQL 中的常用字符集及排序规则

TiDB 社区干货传送门

新版本/特性解读 6.x 实践

太阳能是否能助力LED显示屏节能?

Dylan

节能 LED显示屏 太阳能

IM开发干货分享:IM客户端不同版本兼容运行的技术思路和实践总结

JackJiang

网络编程 即时通讯 即时通讯IM

叹服!华为高工手写344页高性能Java架构核心原理实战大神手册

Java 架构 高并发

软硬件负载均衡 IP 地址透传

TiDB 社区干货传送门

数据库架构设计 数据库连接

手把手教你成为 TiDB 的 Contributor

TiDB 社区干货传送门

实践案例 故障排查/诊断 TiDB 源码解读

TiSpark v3.0.3 & v3.1.3 发布

TiDB 社区干货传送门

新版本/特性解读

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章