写点什么

谷歌 AI 发布新的文本至图像 Transformer 模型 Muse

作者:Daniel Dominguez

  • 2023-02-13
    北京
  • 本文字数:786 字

    阅读完需:约 3 分钟

谷歌AI发布新的文本至图像Transformer模型Muse

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


Muse 被训练为预测随机掩码图像的 token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。


谷歌声称,借助 TPUv4 芯片,可以在 0.5 秒内创建一个 256*256 的图像,而使用 Imagen 则需要 9.1 秒,根据谷歌的说法,Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作 AI 的加速器。


根据研究,谷歌 AI 已经训练了一系列不同规模的 Muse 模型,参数从 6.32 亿到 30 亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。


Muse 的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4 快 3 倍。


Muse 创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。


近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。


原文链接:

Google AI Unveils Muse, a New Text-To-Image Transformer Model


相关阅读:

OpenAI 宣布 DALL·E 开放测试版:面向 100 万用户,有文字就能生成图片

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

2023-02-13 08:005267

评论

发布
暂无评论
发现更多内容

性能测试中QPS取样器和RT取样器

FunTester

C语言总结_数组与函数传参练习题

DS小龙哥

4月月更

求推荐一款免费的项目(OKR)管理系统?

优秀

OKR 项目管理系统

攻克编译器技术(1)

刘旭东

编译器 4月月更

在线Excel转TSV工具

入门小站

工具

Swoole中的协程使用相关说明,快来围观

CRMEB

大数据培训学习程序员有必要吗

@零度

大数据开发

聊聊项目外包

石云升

创业 项目管理 职场经验 4月月更 项目外包

Windows 11 修改 PIN 的长度为 4 位

HoneyMoose

Android C++系列:string最佳实践

轻口味

c++ android 4月月更

超干货 | 手把手教你快速构建一个企业自有“微信”!

融云 RongCloud

源码解析Synchronous Queue 这种特立独行的队列

华为云开发者联盟

MQ 堆栈 队列 Synchronous Queue 公平队列

Go语言入门很简单:Go 中的作用域和变量隐藏

宇宙之一粟

作用域 Go 语言 4月月更

REDIS集群安装运维调优及常见问题处理

IT巅峰技术

Go单体服务开发最佳实践

万俊峰Kevin

微服务 单体架构 web开发 go-zero Go 语言

知识管理:新时代企业竞争力核心

小炮

企业知识管理 企业知识管理工具

开源社区问与答

CnosDB

IoT 时序数据库 开源社区 CnosDB infra

Docker知识对应验证

Docker 4月月更

揭秘华为云GaussDB(for Influx):最佳实践之数据建模

华为云开发者联盟

MySQL 数据建模 数据模型 华为云 GaussDB(for Influx)

眼见不一定为实:调用链HBase倾斜修复

捉虫大师

HBase 数据倾斜 4月月更

直播回顾 | 看完这篇入门数仓研发,跑通复杂业务数据建模

个推

数据中台 数据仓库 数据建模 维度建模 范式建模

区块链行业一周热点回顾|马斯克回应狗狗创始人;虎符交易所回购HOO

区块链前沿News

马斯克 Hoo 虎符交易所 doge

JWTToken在线编码生成

入门小站

工具

云原生应用配置中心简述

穿过生命散发芬芳

4月月更

linux之service命令

入门小站

[Day25]-[二叉树]二叉搜索树中的插入操作

方勇(gopher)

LeetCode 二叉树 数据结构算法

Docker下,极速体验编译pinpoint1.6.x分支

程序员欣宸

Java 分布式 4月月更

DevSecOps“内置安全保护”,让软件研发“天生健康”

华为云开发者联盟

DevOps DevSecOps 软件研发 安全架构设计 安全隐私

「Spring」@ConfigurationProperties——从基础到源码

Geek_rze78a

Java spring 源码

英特尔分享进军独显市场的背后思考

科技新消息

谷歌AI发布新的文本至图像Transformer模型Muse_AI&大模型_InfoQ精选文章