NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌最新 Imagen AI 在文本至图像生成方面优于 DALL-E

作者:Anthony Alford

  • 2022-06-29
  • 本文字数:1648 字

    阅读完需:约 5 分钟

谷歌最新Imagen AI在文本至图像生成方面优于DALL-E

来自谷歌大脑团队的研究人员发布了Imagen,这是一个文本至图像的 AI 模型,它能够通过给定的文本描述生成该场景下逼真的图像。Imagen 在 COCO 基准上的表现要优于DALL-E 2,并且与很多类似的模型不同,它只对文本数据进行了预训练。


发布在 arXiv 上的论文描述了该模型和多个实验。Imagen 使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为U-Net的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。研究人员还讨论了其工作潜在的社会影响,指出:


我们开发 Imagen 的主要目标是推进生成方法(generative method)的研究,使用文本到图像的合成作为一个测试平台。尽管生成方法的终端用户在很大程度上不在这个范围之内,但是我们意识到该研究的潜在下游应用是多种多样的,并且可能会以很复杂的方式影响社会……在未来的工作中,我们将会探索一个负责任的外部化框架,以平衡外部审计的价值和不受限制的开放访问的风险。


近年来,一些研究人员已经在探索训练多模式(multimodal)的 AI 模型,也就是在不同类型的数据上操作系统,比如文本和图像。在 2021 年,OpenAI 发布了CLIP,这是一个深度学习模型,能够将文本和图像映射到相同的嵌入空间中,让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的,OpenAI 还用它创建了DALL-E模型,它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像-文本组合的数据集上进行训练,这些数据都是从互联网上搜集而来,类似于 InfoQ 今年早些时候报道的LAION-5B数据集。


谷歌团队没有使用图像-文本数据集来训练 Imagen,而是简单地使用了“现成的”文本编码器T5,将输入文本转换成嵌入式向量。为了将嵌入式向量转换成图像,Imagen 使用了一系列的扩散模型。这些用于图像生成的 AI 模型使用了迭代的去噪过程,将 Gaussian 噪音转换成数据分布中的样本,在该情况下,也就是图像。去噪的条件是一些输入。在第一个扩散模型中,条件就是输入文本的嵌入式向量,该模型的输出是一个 64x64 像素的图像。该图像经过两个“超级分辨率”扩散模型的向上采样,将分辨率提升到了 1024x1024。对于这些模型,谷歌开发了一个新的深度学习架构,叫做 Efficient U-Net,它比以前的 U-Net 实现 “更简单,收敛更快,内存效率更高”。



“一只可爱的柯基犬住在用寿司做成的房子里”。图片来源:https://imagen.research.google


除了在 COCO 校验集上评估 Imagen 之外,研究人员还开发了一个新的图像生成基准,即 DrawBench。该基准由一系列文本提示组成,“旨在探测模型的不同语义属性”,包括组成、基数(cardinality)和空间关系。DrawBench 使用人类评估员比较了两种不同的模型。首先,每个模型根据提示生成图像。然后,评估人员比较这两个模型的结果,指出哪个模型产生的图像更好。借助 DrawBench,谷歌大脑团队将 Imagen 与 DALL-E 2 以及其他三个类似的模型进行了评估。团队发现,与其他模型相比,评委们“非常”喜欢 Imagen 生成的图像。


在 Twitter 上,谷歌的产品经理 Sharon Zhou讨论了这项成果,她指出:


一如既往,[结论]是我们需要不断扩大[大型语言模型]的规模


在另一个主题推文中,谷歌大脑团队的负责人 Douglas Eck 发布了一系列由Imagen生成的图像,这些图像都来自于同一个提示信息的不同变化形式,Eck 通过添加词语来调整图像的风格、亮度和其他方面。在Imagen项目的网站上还可以找到其他几个由 Imagen 所生成图像的样例。


作者简介:

Anthony 是 Genesys 的开发总监,他从事与客户体验相关的多个 AI 和 ML 项目。他在设计和构建可扩展软件方面有着超过 20 年的经验。Anthony 拥有电子工程博士学位,专业是智能机器人软件,曾在人与人工智能交互和 SaaS 业务优化的预测分析领域研究过各种问题。


原文链接:

Google's New Imagen AI Outperforms DALL-E on Text-to-Image Generation Benchmarks

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-06-29 09:005732

评论

发布
暂无评论
发现更多内容

秒验丨 REST API:手机号码置换接口

MobTech袤博科技

大数据 前端 后端

区块链技术协议有哪些?

TiAmo

区块链 技术协议

低代码的出现,程序员要拒绝还是拥抱

互联网工科生

软件开发 低代码 JNPF

ZipZapAI大模型与勇者斗恶龙:探索AVG游戏的无限可能

Ricky

AI Chat ChatGPT

点云标注的算法优化与性能提升

来自四九城儿

基于列存储的开源分布式NoSQL数据库Apache Cassandra入门分享

快乐非自愿限量之名

开源 NoSQL 数据库

基于 EMQX 和 Neuron 的工业物联网 MQTT Sparkplug 解决方案

EMQ映云科技

解决方案 工业物联网 sparkplug

DPO 直接偏好优化:跳过复杂的对抗学习,语言模型本来就会奖励算法

Zilliz

AIGC LLM RLHF

以开放安全底座赋能全球开发者,华为云构筑云原生安全防护体系

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 7 月 PK 榜

语音标注平台:推动语音技术发展的关键支撑

来自四九城儿

不要爱上解决方案,而是爱上问题!什么是设计思维

汽车之家客户端前端团队

前端 设计思维 学会思考 ChatGPT

技术分享 | 如何利用GPU云服务器加速AIGC训练

阿里云弹性计算

云计算 阿里云 大模型 AIGC

点云标注与自动驾驶的安全性

来自四九城儿

RTC+AI|“即智”数智人创新内容生产体验,为企业降本增效再提速

ZEGO即构

数字人 虚拟直播 AI人工智能 数字人短视频 直播间

如何评价MyBatis-Flex框架

酱紫的小白兔

华为云云原生数据库,让企业离应用更进一步

新消费日报

问答对话文本数据:解锁智能问答的未来

来自四九城儿

GitHub上整理的一些实用的工具

这我可不懂

GitHub 程序员 提升效率

Maxon Qualcomm QCN9024 WiFi6 Module 4x4 MIMO PCI Express 3.0

wifi6module

一文详解新一代高效前端构建工具VITE-达观数据

NLP资深玩家

vite 前端构建 es modules

HDC精彩回顾|7月8日OpenTiny重磅发布

OpenTiny社区

开源 前端 UI组件库

模块七:王者荣耀商城异地多活设计

家有两宝

架构训练营

瓴羊QuickBI为什么被称为国内口碑最好的BI工具

夜雨微澜

对线面试官-Redis 八 | 基于哨兵HA的原理

派大星

Java 面试题

HiveSQL 迁移 FlinkSQL 在快手的实践

Apache Flink

大数据 flink 实时计算

点云标注的标准化与数据共享

来自四九城儿

Python源码剖析:深度探索Cpython对象-达观数据

NLP资深玩家

Python CPython 达观数据

CentOS7系统更新yum源教程

百度搜索:蓝易云

MySQL Linux centos 运维 yum

超高速稳定!香港虚拟主机助你网站飞一般的速度!

一只扑棱蛾子

香港虚拟主机

Buck电路的原理及器件选型指南

元器件秋姐

电路 元器件 PCB设计 电源 Buck

谷歌最新Imagen AI在文本至图像生成方面优于DALL-E_AI&大模型_InfoQ精选文章