写点什么

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

作者:Anthony Alford

  • 2022-06-29
  • 本文字数:1648 字

    阅读完需:约 5 分钟

谷歌最新Imagen AI在文本至图像生成方面优于DALL-E

来自谷歌大脑团队的研究人员发布了Imagen,这是一个文本至图像的 AI 模型,它能够通过给定的文本描述生成该场景下逼真的图像。Imagen 在 COCO 基准上的表现要优于DALL-E 2,并且与很多类似的模型不同,它只对文本数据进行了预训练。


发布在 arXiv 上的论文描述了该模型和多个实验。Imagen 使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为U-Net的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。研究人员还讨论了其工作潜在的社会影响,指出:


我们开发 Imagen 的主要目标是推进生成方法(generative method)的研究,使用文本到图像的合成作为一个测试平台。尽管生成方法的终端用户在很大程度上不在这个范围之内,但是我们意识到该研究的潜在下游应用是多种多样的,并且可能会以很复杂的方式影响社会……在未来的工作中,我们将会探索一个负责任的外部化框架,以平衡外部审计的价值和不受限制的开放访问的风险。


近年来,一些研究人员已经在探索训练多模式(multimodal)的 AI 模型,也就是在不同类型的数据上操作系统,比如文本和图像。在 2021 年,OpenAI 发布了CLIP,这是一个深度学习模型,能够将文本和图像映射到相同的嵌入空间中,让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的,OpenAI 还用它创建了DALL-E模型,它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练,这些数据都是从互联网上搜集而来,类似于 InfoQ 今年早些时候报道的LAION-5B数据集。


谷歌团队没有使用图像-文本数据集来训练 Imagen,而是简单地使用了“现成的”文本编码器T5,将输入文本转换成嵌入式向量。为了将嵌入式向量转换成图像,Imagen 使用了一系列的扩散模型。这些用于图像生成的 AI 模型使用了迭代的去噪过程,将 Gaussian 噪音转换成数据分布中的样本,在该情况下,也就是图像。去噪的条件是一些输入。在第一个扩散模型中,条件就是输入文本的嵌入式向量,该模型的输出是一个 64x64 像素的图像。该图像经过两个“超级分辨率”扩散模型的向上采样,将分辨率提升到了 1024x1024。对于这些模型,谷歌开发了一个新的深度学习架构,叫做 Efficient U-Net,它比以前的 U-Net 实现 “更简单,收敛更快,内存效率更高”。



“一只可爱的柯基犬住在用寿司做成的房子里”。图片来源:https://imagen.research.google


除了在 COCO 校验集上评估 Imagen 之外,研究人员还开发了一个新的图像生成基准,即 DrawBench。该基准由一系列文本提示组成,“旨在探测模型的不同语义属性”,包括组成、基数(cardinality)和空间关系。DrawBench 使用人类评估员比较了两种不同的模型。首先,每个模型根据提示生成图像。然后,评估人员比较这两个模型的结果,指出哪个模型产生的图像更好。借助 DrawBench,谷歌大脑团队将 Imagen 与 DALL-E 2 以及其他三个类似的模型进行了评估。团队发现,与其他模型相比,评委们“非常”喜欢 Imagen 生成的图像。


在 Twitter 上,谷歌的产品经理 Sharon Zhou讨论了这项成果,她指出:


一如既往,[结论]是我们需要不断扩大[大型语言模型]的规模


在另一个主题推文中,谷歌大脑团队的负责人 Douglas Eck 发布了一系列由Imagen生成的图像,这些图像都来自于同一个提示信息的不同变化形式,Eck 通过添加词语来调整图像的风格、亮度和其他方面。在Imagen项目的网站上还可以找到其他几个由 Imagen 所生成图像的样例。


作者简介:

Anthony 是 Genesys 的开发总监,他从事与客户体验相关的多个 AI 和 ML 项目。他在设计和构建可扩展软件方面有着超过 20 年的经验。Anthony 拥有电子工程博士学位,专业是智能机器人软件,曾在人与人工智能交互和 SaaS 业务优化的预测分析领域研究过各种问题。


原文链接:

Google's New Imagen AI Outperforms DALL-E on Text-to-Image Generation Benchmarks

2022-06-29 09:007076

评论

发布
暂无评论
发现更多内容

云原生系列 【轻松入门容器基础操作】

叶秋学长

云原生 沙箱实验 11月月更

从 Uber 数据泄露事件我们可以学到什么?

SEAL安全

数据安全 企业安全 PAM

从源码角度看React-Hydrate原理

flyzz177

React

从元宇宙、地产数字化到呼叫中心,华为云携手伙伴共创新价值

华为云开发者联盟

云计算 华为云 元宇宙

好好的系统,为什么要分库分表?

程序员小富

Java 数据库 面试 分库分表

从react源码看hooks的原理

flyzz177

React

OceanBase 4.0 解读:分布式查询性能提升,我们是如何思考的?

OceanBase 数据库

数据库 oceanbase

HDC2022的无障碍参会体验,手语服务是如何做到的?

HarmonyOS SDK

HMS Core

基于 RocketMQ 的 Dubbo-go 通信新范式

Apache RocketMQ

RocketMQ RPC dubbo-go dubbogo

python常用内置函数用法精要(二)

乔乔

11月月更

【从零开始学爬虫】采集猫眼电影热门资讯数据

前嗅大数据

爬虫 数据采集 爬虫软件 爬虫教程 数据采集教程

云享·人物丨造梦、探梦、筑梦,三位开发者在华为云上的寻梦之旅

华为云开发者联盟

云计算 后端 华为云

华为云区块链三大核心技术国际标准立项通过

华为云开发者联盟

区块链 华为云

火山引擎 DataTester 应用故事:一个A/B测试,将产品DAU提升了数十万

字节跳动数据平台

大数据 AB testing实战

从recat源码角度看setState流程

flyzz177

React

为什么 NGINX 的 reload 不是热加载?

API7.ai 技术团队

Apache nginx 开源 api 网关 APISIX

只需5步注册成为亚马逊云科技 Marketplace (海外区)专家

亚马逊云科技 (Amazon Web Services)

亚马逊云科技 Tech 专栏 Marketplace

Spring中获取bean的八种方式,你get了几种?

小小怪下士

Java spring bean

【11.18-11.25】写作社区优秀技术博文回顾

InfoQ写作社区官方

热门活动

Fiori Elements 框架里 Smart Table 控件的工作原理介绍

汪子熙

SAP Fiori SAP UI5 ui5 11月月更

信创产业多点开花,AntDB数据库积极参与行业标准研制,协同价值链伙伴共促新发展

亚信AntDB数据库

AntDB aisware antdb AntDB数据库

袋鼠云数据湖平台「DataLake」,存储全量数据,打造数字底座

袋鼠云数栈

数据中台 数据仓库 数据湖 数据中台场景实践 数据湖分析

六年三次架构迭代,OceanBase 单机分布式一体化会是大势所趋吗?

OceanBase 数据库

数据库 oceanbase

记一次TiDB数据库Insert语句执行报错的处理过程

TiDB 社区干货传送门

经营型项目经理是不是伪需求?

PMO实践

项目管理 敏捷 PMO 项目经理

链上挖矿分红智能合约DAPP系统开发部署模式定制

开发微hkkf5566

数据卡顿怎么办,瓴羊Quick BI强劲数据引擎来帮忙

小偏执o

高性能数据访问中间件 OBProxy(六):一文讲透数据路由

OceanBase 数据库

oceanbase

BSN-DDC基础网络DDC SDK详细设计(六):交易查询、区块查询、签名事件

BSN研习社

BSN

流程编排、如此简单-通用流程编排组件JDEasyFlow介绍

京东科技开发者

数据库 架构 服务端 流程引擎 流程编排

【看球和学Go】错误和异常、CGO、fallthrough

王中阳Go

Go golang 面试题 Go web 11月月更

谷歌最新Imagen AI在文本至图像生成方面优于DALL-E_AI&大模型_InfoQ精选文章