10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:125313

评论

发布
暂无评论
发现更多内容

驱动数字化转型,Doris Summit Asia 2023 智慧金融与政企论坛精彩预告!

SelectDB

数据库 大数据 数据分析 实时数仓 apache doris

AI原生应用速通指南

百度Geek说

App 百度文库 AIGC 企业号10月PK榜

AI大模型下一步怎么走?百度携AI原生应用抢先作答

陈橘又青

文心一言

如何将电脑上的“小电影”隐藏为一张图片?这波操作绝了!!

冰河

程序员 图片 视频创作 知识分享 小视频

记一次MySQL5初始化被kill的问题排查 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号10月PK榜

解析设计模式与设计原则:构建可维护性和可扩展性代码的重要性

华为云开发者联盟

开发 华为云 华为云开发者联盟

图文详解!带你认识 ancert:硬件兼容性标准实现工具!| 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 Ancert 硬件兼容性

李彦宏,AI原生应用的秋收时刻

脑极体

AI

浅谈分布式事务及解决方案 | 京东物流技术团队

京东科技开发者

数据库 分布式 分布式事务 事务 企业号10月PK榜

Bonree ONE 秋季产品发布会上新功能提前剧透!

博睿数据

可观测性 智能运维

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

京东科技开发者

人工智能 gpu 企业号10月PK榜

SAAS堡垒机安全吗?为什么性价比那么高?

行云管家

云计算 软件 SaaS SAAS软件

文件比较对比软件中的佼佼者Beyond Compare 4 for Mac

展初云

Mac Mac软件 文件比较对比工具

Mac专业级的PDF编辑和管理软件:Acrobat Pro DC 2023

展初云

Mac软件 PDF编辑 PDF管理

Opencv入门篇:简介与基本使用 | 京东物流技术团队

京东科技开发者

Python OpenCV 计算机视觉 企业号10月PK榜

博睿数据获评2023中国智能运维领域“最具商业合作价值企业”

博睿数据

可观测平台 智能运维AIOps

sip中继的内容介绍

cts喜友科技

SIP sip中继

TDengine 资深研发整理:基于 SpringBoot 多语言实现 API 返回消息国际化

TDengine

时序数据库 ​TDengine

宁夏企业过等保选哪家测评机构好?选哪家堡垒机?

行云管家

等保 等级保护 宁夏

简单好用的pdf编辑工具 PDF Expert 最新中文版

胖墩儿不胖y

PDF 编辑pdf pdf处理工具

DHorse v1.4.2 发布,基于 k8s 的发布平台

tiandizhiguai

消灭指标二义性!提效30%的指标管理如何炼成?

奇点云

奇点云 数据云操作系统 指标标签

火山引擎ByteHouse:双十一即将到来,如何用数据分析提升电商平台销售转化?

字节跳动数据平台

大数据 数据仓库 云原生 电商

设计模式之策略模式:让你的代码灵活应对不同的算法 | 京东云技术团队

京东科技开发者

算法 设计模式 策略模式 企业号10月PK榜

塑造未来经济的游戏规则改变者:去中心化金融交易所的发展

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

在 Windows 平台下安装与配置 MySQL 5.7.36

小齐写代码

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章