【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-11-04 16:124484

评论

发布
暂无评论
发现更多内容

阿里巴巴Aliware十年微服务架构演进历程中的挑战与实践

阿里技术

最前沿人工智能,助力双11搜索推荐技术再升级——深度增强学习大规模在线应用

阿里技术

[干货] Weex在双11会场的大规模应用:业务支撑、稳定性保障和秒开实战

阿里技术

使用ES6编写一个超简单的搜索算法

DisonTangor

JavaScript 大前端

【死磕Java并发】-----J.U.C之深入分析CAS

chenssy

11月日更 死磕 Java 死磕 Java 并发

新零售时代的双11移动技术亮剑 ——2016年阿里移动平台新技术解读

阿里技术

Rust 元宇宙 6 —— 显示世界

Miracle

rust SDL 元宇宙

不会用Camtasia的“库”,你可能错过了一个亿

淋雨

Camtasia

Rust 元宇宙 2 — 邻居

Miracle

rust 元宇宙

Rust 元宇宙 4 —— 让世界动起来

Miracle

rust 元宇宙

你需要用战略耐心实现职业目标

石云升

读书笔记 11月日更

微博系统中”微博评论“的高性能高可用计算架构设计

Beyond Ryan

Rust 元宇宙 5 —— SDL2.0

Miracle

rust SDL 元宇宙

应运而生! 双11当天处理数据5PB—HiStore助力打造全球最大列存储数据库

阿里技术

天猫技术全面打造『身临其境』的消费者交互体验

阿里技术

使用redis生成唯一编号

喵叔

11月日更

面试官:final、finally、finalize 有什么区别?

王磊

java面试

直播预告丨“Hello ArkUI:初识Slider组件(JS)”周三约起

HarmonyOS开发者

HarmonyOS

Rust 元宇宙 3 —— 进入和离开

Miracle

rust 元宇宙

阿里巴巴服务网格技术三位一体战略背后的思考与实践

阿里巴巴云原生

阿里云 云原生 服务网格 三位一体

超强实时跟踪系统首次开源!支持跨镜头、多类别、小目标跟踪!

百度大脑

人工智能 人工智能摄像头

网络监控原理

喀拉峻

网络安全 安全 网络

阿里研究员毕玄谈应用运维体系的变迁,DevOPS是大势所趋

阿里技术

Apache再次接受阿里开源产品捐赠 移动开发框架Weex进入孵化

阿里技术

百度ERNIE新突破!登顶中文医疗信息处理权威榜单CBLUE冠军

百度大脑

人工智能

花了2个钟才搞懂这AOP为啥没生效,水友却睡着了……

4ye

Java spring 程序员 后端 签约计划第二季

29 K8S之ReplicaSet控制器

穿过生命散发芬芳

k8s 11月日更

Rust 元宇宙 1 —— 创世纪

Miracle

rust 元宇宙

当学霸们跑步的时候他们在跑什么

阿里技术

企业决策智能项目的五种失败姿势

脑极体

面试官:int和Integer有什么区别?为什么要有包装类?

王磊

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章