写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:125170

评论

发布
暂无评论
发现更多内容

后台服务架构高性能设计之道

C++后台开发

后台开发 后端开发 Linux服务器开发 高性能服务器 C++开发

数字化智慧园区

科技云未来

想要达到阿里P6?最少啃完这本500页Java并发多线程源码笔记

收到请回复

Java 程序员 架构 技术管理 语言 & 开发

【导航】RT-Thread 学习专栏目录 【快速跳转】

矜辰所致

目录 RT-Thread 8月月更

蚂蚁金服开源的这份SpringBoot笔记,曾在24小时内GitHub星标48k

收到请回复

Java 架构 面试 语言 & 开发 秋招

中台 vs 平台

agnostic

中台

史上秋招最全500道Java面试题:JVM+分布式+算法+锁+MQ+微服务+数据库

退休的汤姆

Java 程序员 社招 Java工程师 秋招

契约测试的三种模式

agnostic

契约测试

数夫携手图森,打造高整木定制数字化标杆

神奇视野

JVM性能调优都做了什么?阿里内网JVM虚拟机性能调优指南给出了答案

退休的汤姆

程序员 JVM 面经 社招 秋招

Python自学教程8-数据类型有哪些注意事项

和牛

8月月更 python数据类型

Python图像处理丨图像的灰度线性变换

华为云开发者联盟

Python 人工智能

后端开发必备:mysql数据库建表的15个小技巧

Java永远的神

MySQL 数据库 程序员 面试 后端

认识微服务 SpringCloud (史上最全学习路线)

微服务 spring could 8月月更

DTSE 技术讲座 |云原生架构下的数字身份治理实践

华为云开发者联盟

云计算 云原生 后端 SaaS

【实用】用 FP 思想将 JS 循环做简单封装~

掘金安东尼

前端 8月月更

记一次血淋淋的MySQL崩溃修复案例

华为云开发者联盟

数据库 后端

网络知识平面简介

俞凡

网络 知识平面

全卫定制龙头企业-伽蓝集团数字化转型之路

神奇视野

南洋迪克“整装”起飞,数夫系统打通端到端高效服务流程

神奇视野

K8s 长什么样子,一文道清它的整体架构

网管

架构 k8s 后端

Solana流支付协议Zebec完成850万美元融资,CircleVentures等参投

股市老人

前端工资涨不上去?可能是你没掌握构建工具:关于 Webpack、Babel、esbuild、Vite、Rollup、Parcel、SWC......的那些事

代码与野兽

前端 前端架构 前端工程化 webpack babel

采访236位第一批秋招上岸的同学后,我整理了这份Java面试手册

收到请回复

Java 架构 面试 语言 & 开发 秋招

被裁后半月面试8家公司无果,凭借这份Java面试指南成功入职阿里

收到请回复

Java 架构 语言 & 开发

九章云极DataCanvas公司携因果学习开源重器登录WAIC!

九章云极DataCanvas

人工智能

华为云智能监管

科技云未来

并发量很大?阿里上传在GitHub的亿级流量百万并发手册爆火

退休的汤姆

Java 程序员 阿里 并发 秋招

RT-Thread记录(十八、I2C软件包 — 温湿度传感器 SHT21与EEPROM 24C02)

矜辰所致

软件包 RT-Thread 8月月更

“阿里爸爸”最新Java面试指南,基础+框架+数据库+系统设计+算法

收到请回复

Java 架构 计算机 语言 & 开发

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章