写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:125452

评论

发布
暂无评论
发现更多内容

MatrixOne v2.0.0 release note

MatrixOrigin

数据库 矩阵起源 MO

IPLC、IEPL和MPLS的对比分析

Ogcloud

MPLS 企业组网 企业网络 IPLC IEPL

香港 Web3 一周大事记: 胜利证券计划年底前在香港推出虚拟资产结构性产品及稳定币收益产品

TechubNews

Greenplum 可观测最佳实践

观测云

greenplum

如何用Redis高效实现点赞功能?用Set?还是Bitmap?

左诗右码

借助 1688 拍立淘 API 接口,解锁以图找货的无限可能

tbapi

图片搜索商品接口 1688拍立淘接口 以图识货接口

VMware Tanzu CLI 1.5.0 - VMware Kubernetes 发新版的命令行工具

sysin

Kubernetes Tanzu

悦数图数据库 v5.0 及悦数 RAG 正式发布:引领标准化,激发新动能

最新动态

Astherus:基于真实收益,唤醒 LRT 赛道的第二春

股市老人

释放创作潜力!Flux 模型现已集成至 ComfyUI,快来体验!

MatrixOrigin

数据库 AI 大底座 AI 图像生成

【喜报】矩阵起源在2024年中国创新创业大赛斩获多个奖项!

MatrixOrigin

AI 大底座 创新创业大赛

【项目场景】请求数据时测试环境比生产环境多花了1秒是怎么回事?

威哥爱编程

Java 数据库 JavaEE

ETLCloud支持的数据处理类型包括哪些?

谷云科技RestCloud

数据库 数据处理 ETL 数据集成

云手机群控和传统群控有什么区别?

Ogcloud

云手机 海外云手机 云手机群控 手机群控

NFTScan | 11.04~11.10 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

深入理解Java对象结构

不在线第一只蜗牛

Java C#

【JIT/极态云】技术文档--聚合表

武汉万云网络科技有限公司

Web3 游戏周报(11.03 - 11.09)

Footprint Analytics

链游

离散元仿真技术加速工业自动化发展,助力企业数字化转型

Altair RapidMiner

制造业 仿真 DEM altair 离散元

Metasploit Pro 4.22.5-2024102801 发布下载,新增功能简介

sysin

Metasploit

CachedThreadPool线程池设计/场景案例/性能调优/场景适配(架构篇)

肖哥弹架构

Java 并发编程 高并发

破解低效数字化:JNPF打造数字商业新基建

不在线第一只蜗牛

低代码 数字化

火山引擎边缘云项目管理部荣获 PMI 年度杰出 PMO 奖

火山引擎边缘云

项目管理 边缘计算 PMO #项目管理

怎么绘制服务蓝图?10个服务蓝图模板盘点推荐!

职场工具箱

职场 画图软件 在线白板 画图 服务蓝图

HCL AppScan Standard 10.7.0 发布下载,新增功能介绍

sysin

AppScan

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章