【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-11-04 16:124475

评论

发布
暂无评论
发现更多内容

华为云盘古大模型for医学,“良医小慧”让智慧诊疗触手可及

彭飞

技术贴 | 深度解析 PostgreSQL Protocol v3.0(二)— 扩展查询

KaiwuDB

一键登录是如何为应用开发者实现降本增效的

MobTech袤博科技

大数据 智能推送

Mac Office安装许可工具后,软件显示只读模式,如何解决?

展初云

Office Mac软件

华为云耀云服务器 L 实例:为你揭开轻量应用服务器的神秘面纱

轶天下事

中小企业请收藏丨轻量应用服务器企业选购避坑指南

轶天下事

遥遥领先的不仅是华为Mate60 Pro+,华为云正在数字赋能万千中小企业

轶天下事

K-最近邻算法(KNN)

小魏写代码

GreatSQL一个关于主从复制的限制描述与规避

GreatSQL

主从复制 greatsql 运维实战

快速读懂Etcd

Quincy

golang 源码 分布式 etcd

HarmonyOS线性容器特性及使用场景

HarmonyOS开发者

HarmonyOS

从繁琐到一键直达:秒验助力实现优化用户登录体验

MobTech袤博科技

大数据 智能推送

轻量应用服务器选哪家?华为云耀云服务器L实例告诉你如何选择

轶天下事

什么是立方体led显示屏?立方体led显示屏适合用在什么地方?

Dylan

设计 模块 LED显示屏 led显示屏厂家

聚焦私域营销降本提效,国联股份与火山引擎数智平台展开合作

字节跳动数据平台

大数据 数字化转型 数据平台 火山引擎 企业号9月PK榜

软件开发、管理全周期文档整理,满足开发、验收、投标支撑

金陵老街

轻量应用服务器价值典范,云耀云服务器助力企业穿越经济周期

轶天下事

技术向上,场景向下丨华为云828 B2B企业节打通云上路径

轶天下事

打造承载百倍级增长后台背后的力量

优测云服务平台

性能优化 后台开发 性能测试 压力测试 性能压测

简化 Go 开发:使用强大的工具提高生产力

SEAL安全

Go 语言 开发. 企业号9月PK榜

Mac系统设置维护软件 TinkerTool System激活最新版

mac大玩家j

系统优化 Mac软件 系统清理工具

MobTech全面助力开发与运营用户进行APP生命周期智能管理

MobTech袤博科技

大数据 智能推送

运行Adobe应用提示非正版This non-genuine Adobe app has been disabled如何处理

展初云

ps adobe Mac软件

在AI的风口上,百度营销如何助力企业抢占先机?

彭飞

游戏服务商Latis Global参展2023 ChinaJoy B2B

科技热闻

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章