谷歌最新Imagen AI在文本至图像生成方面优于DALL-E_AI&大模型



 写点什么

来自谷歌大脑团队的研究人员发布了Imagen，这是一个文本至图像的 AI 模型，它能够通过给定的文本描述生成该场景下逼真的图像。Imagen 在 COCO 基准上的表现要优于DALL-E 2，并且与很多类似的模型不同，它只对文本数据进行了预训练。

发布在 arXiv 上的论文描述了该模型和多个实验。Imagen 使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后，连续的三个扩散模型（diffusion model）会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分，该团队开发了名为U-Net的改进型扩散模型，以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准，Imagen 的 zero-shot FID得到了 7.27 分，超过了之前表现最好的 DALL-E 2 模型。研究人员还讨论了其工作潜在的社会影响，指出：

我们开发 Imagen 的主要目标是推进生成方法（generative method）的研究，使用文本到图像的合成作为一个测试平台。尽管生成方法的终端用户在很大程度上不在这个范围之内，但是我们意识到该研究的潜在下游应用是多种多样的，并且可能会以很复杂的方式影响社会……在未来的工作中，我们将会探索一个负责任的外部化框架，以平衡外部审计的价值和不受限制的开放访问的风险。

近年来，一些研究人员已经在探索训练多模式（multimodal）的 AI 模型，也就是在不同类型的数据上操作系统，比如文本和图像。在 2021 年，OpenAI 发布了CLIP，这是一个深度学习模型，能够将文本和图像映射到相同的嵌入空间中，让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的，OpenAI 还用它创建了DALL-E模型，它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练，这些数据都是从互联网上搜集而来，类似于 InfoQ 今年早些时候报道的LAION-5B数据集。

谷歌团队没有使用图像-文本数据集来训练 Imagen，而是简单地使用了“现成的”文本编码器T5，将输入文本转换成嵌入式向量。为了将嵌入式向量转换成图像，Imagen 使用了一系列的扩散模型。这些用于图像生成的 AI 模型使用了迭代的去噪过程，将 Gaussian 噪音转换成数据分布中的样本，在该情况下，也就是图像。去噪的条件是一些输入。在第一个扩散模型中，条件就是输入文本的嵌入式向量，该模型的输出是一个 64x64 像素的图像。该图像经过两个“超级分辨率”扩散模型的向上采样，将分辨率提升到了 1024x1024。对于这些模型，谷歌开发了一个新的深度学习架构，叫做 Efficient U-Net，它比以前的 U-Net 实现 “更简单，收敛更快，内存效率更高”。

“一只可爱的柯基犬住在用寿司做成的房子里”。图片来源：https://imagen.research.google

除了在 COCO 校验集上评估 Imagen 之外，研究人员还开发了一个新的图像生成基准，即 DrawBench。该基准由一系列文本提示组成，“旨在探测模型的不同语义属性”，包括组成、基数（cardinality）和空间关系。DrawBench 使用人类评估员比较了两种不同的模型。首先，每个模型根据提示生成图像。然后，评估人员比较这两个模型的结果，指出哪个模型产生的图像更好。借助 DrawBench，谷歌大脑团队将 Imagen 与 DALL-E 2 以及其他三个类似的模型进行了评估。团队发现，与其他模型相比，评委们“非常”喜欢 Imagen 生成的图像。

在 Twitter 上，谷歌的产品经理 Sharon Zhou讨论了这项成果，她指出：

一如既往，[结论]是我们需要不断扩大[大型语言模型]的规模

在另一个主题推文中，谷歌大脑团队的负责人 Douglas Eck 发布了一系列由Imagen生成的图像，这些图像都来自于同一个提示信息的不同变化形式，Eck 通过添加词语来调整图像的风格、亮度和其他方面。在Imagen项目的网站上还可以找到其他几个由 Imagen 所生成图像的样例。

作者简介：

Anthony 是 Genesys 的开发总监，他从事与客户体验相关的多个 AI 和 ML 项目。他在设计和构建可扩展软件方面有着超过 20 年的经验。Anthony 拥有电子工程博士学位，专业是智能机器人软件，曾在人与人工智能交互和 SaaS 业务优化的预测分析领域研究过各种问题。

原文链接：

Google's New Imagen AI Outperforms DALL-E on Text-to-Image Generation Benchmarks

发布

暂无评论

创作场景

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

评论

云原生系列【轻松入门容器基础操作】

从 Uber 数据泄露事件我们可以学到什么？

从源码角度看React-Hydrate原理

从元宇宙、地产数字化到呼叫中心，华为云携手伙伴共创新价值

好好的系统，为什么要分库分表？

从react源码看hooks的原理

OceanBase 4.0 解读：分布式查询性能提升，我们是如何思考的？

HDC2022的无障碍参会体验，手语服务是如何做到的？

基于 RocketMQ 的 Dubbo-go 通信新范式

python常用内置函数用法精要（二）

【从零开始学爬虫】采集猫眼电影热门资讯数据

云享·人物丨造梦、探梦、筑梦，三位开发者在华为云上的寻梦之旅

华为云区块链三大核心技术国际标准立项通过

火山引擎 DataTester 应用故事：一个A/B测试，将产品DAU提升了数十万

从recat源码角度看setState流程

为什么 NGINX 的 reload 不是热加载？

只需5步注册成为亚马逊云科技 Marketplace （海外区）专家

Spring中获取bean的八种方式，你get了几种？

【11.18-11.25】写作社区优秀技术博文回顾

Fiori Elements 框架里 Smart Table 控件的工作原理介绍

信创产业多点开花，AntDB数据库积极参与行业标准研制，协同价值链伙伴共促新发展

袋鼠云数据湖平台「DataLake」，存储全量数据，打造数字底座

六年三次架构迭代，OceanBase 单机分布式一体化会是大势所趋吗？

记一次TiDB数据库Insert语句执行报错的处理过程

经营型项目经理是不是伪需求？

链上挖矿分红智能合约DAPP系统开发部署模式定制

数据卡顿怎么办，瓴羊Quick BI强劲数据引擎来帮忙

高性能数据访问中间件 OBProxy（六）：一文讲透数据路由

BSN-DDC基础网络DDC SDK详细设计（六）：交易查询、区块查询、签名事件

流程编排、如此简单-通用流程编排组件JDEasyFlow介绍

【看球和学Go】错误和异常、CGO、fallthrough

创作场景

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载