写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:125508

评论

发布
暂无评论
发现更多内容

大模型时代下的企业系统架构变革

蔡超

架构 AI 大模型 GPT ChatGPT

面试官问:kafka为什么如此之快?

JAVA旭阳

kafka

朱珠代言Moto razr40登618手机榜首,小折叠成新摩登主义造风者

科技之家

软件测试|PC端应用自动化最佳解决方案——Pywinauto

霍格沃兹测试开发学社

软件测试|手把手教你用Python来模拟绘制自由落体运动过程中的抛物线

霍格沃兹测试开发学社

区块链代币DAPP通缩燃烧模式系统开发技术方案

I8O28578624

ChatGPT与软件架构(3) - 软件架构提示工程

俞凡

人工智能 架构 ChatGPT

你说的是哪一种 IDP:内部开发者门户 OR 内部开发者平台?

杨振涛

DevOps 平台工程 内部开发者平台 内部开发者门户 IDP,

听说最近AI应用爆了?!来AI Studio玩转大模型应用

飞桨PaddlePaddle

百度飞桨

利用 AWS CodeWhisperer 激发孩子的编程兴趣

汪子熙

人工智能 AI AWS AIGC 代码生成器

软件测试|Pytest必会技巧(三)

霍格沃兹测试开发学社

软件测试|Pytest的必会技巧(一)

霍格沃兹测试开发学社

九科信息获评“第一新声”最佳信创企业管理软件,案例入选信创产业研究报告

九科Ninetech

大数据公司数据分析取数流程以及SQL示例

MobTech袤博科技

龙蜥社区 5 月度运营大事件回顾

OpenAnolis小助手

开源 总结 生态 龙蜥社区 运营月报

au音频编辑 Audition 2022 中文激活版

真大的脸盆

Mac Mac 软件 音频编辑 音频处理 编辑音频

精选一线企业最佳生产实践,《Apache Doris 用户案例集》重磅发布!

SelectDB

数据库 大数据 数据分析 实时数仓 Doris

架构实战营模块 1 第 4 课 - 如何做好架构设计

净意

inBuilder低代码平台特性推荐系列-第三期

inBuilder低代码平台

【零售电商系列】走进电商

小诚信驿站

6 月 优质更文活动

软件测试|一步到位教会你Python字典操作(一)

霍格沃兹测试开发学社

ChatGPT会取代低代码开发平台吗?

力软低代码开发平台

多模块项目使用枚举配置spring-cache缓存

javalover123

Java lombok Enum spring-boot spring-cache

AI版女网红“半藏森林”上线,服务项目让人意想不到

引迈信息

人工智能 AI 低代码 JNPF

ChatGPT与软件架构(4) - 架构师提示工程指南

俞凡

人工智能 架构 ChatGPT

软件测试|不会Python RPC,一篇文章教你入门

霍格沃兹测试开发学社

软件测试|Pytest必会技巧(二)

霍格沃兹测试开发学社

深入剖析Redis性能问题及优化方案

xfgg

redis 优化 6 月 优质更文活动

使用Leangoo领歌敏捷工具实施多团队规模化敏捷管理

顿顿顿

项目管理 敏捷项目管理 敏捷工具 scrum工具

ChatGPT与软件架构(2) - 基于Obsidian和GPT实现解决方案架构自动化

俞凡

人工智能 架构 ChatGPT

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章