写点什么

超越 DALL-E 2?谷歌文本转图像 AI 模型 Imagen 首次开放测试

  • 2022-11-04
    北京
  • 本文字数:949 字

    阅读完需:约 3 分钟

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试

近日,谷歌开始通过 AI Test Kitchen 应用公测其文本转图像 AI 模型 Imagen,以收集用户对 Imagen 的反馈。

 

今年 6 月份,谷歌正式推出文本转图像 AI 模型 Imagen,并表示 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

据悉,DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。

 

Imagen 还使用 Transformer 语言模型将输入的文本转换成一个嵌入式向量的序列。然后,连续的三个扩散模型(diffusion model)会将这些嵌入式的向量转换成 1024x1024 像素的图片。作为其成果的一部分,该团队开发了名为 U-Net 的改进型扩散模型,以及适用于文本至图像模型的新基准套件 DrawBench。按照 COCO 基准,Imagen 的 zero-shot FID 得到了 7.27 分,超过了之前表现最好的 DALL-E 2 模型。

 

不过彼时,谷歌尚未向公众开放 Imagen,并表示 Imagen“目前尚不适合公众使用”。谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。他们计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。

 

而随着近日谷歌将 Imagen 添加到AI Test Kitchen 应用中,用户终于可以亲自使用 Imagen。

 

据了解,AI Test Kitchen 是谷歌在今年早些时候推出的一款应用,其目的是对谷歌的各种 AI 系统进行测试。此前,用户在该应用程序中可以与谷歌的文本模型 LaMDA 进行互动,现在,用户也可以在该应用中与 Imagen 进行互动。

 

值得一提的是,谷歌对用户与 Imagen 之间的互动实施了严格的限制,用户不能随心所欲地创造文本图像,只能在选定的主题上添加不同的风格。这也是谷歌有意为之。谷歌产品管理高级总监 Josh Woodward 解释称,AI Test Kitchen 的全部意义在于:获得公众对这些 AI 系统的反馈;测试哪些行为会使得系统崩溃。

 

具体而言,用户有两种方式与 Imagen 互动:城市梦想家和 Wobble。



在“城市梦想家”中,用户可以生成围绕一个主题设计的城市图像,Imagen 能够根据用户的想法,创建样本建筑和地块。


 

在“Wobble”中,用户可以创造一个小怪物,并选择它的材质和服装。

 

2022-11-04 16:125286

评论

发布
暂无评论
发现更多内容

全面掌握统一任务调度监控:TASKCTL平台中Kettle作业的最佳实践与性能优化指南

敏捷调度TASKCTL

运维 kettle ETL任务 ETL系统 TASKCTL

聚道云软件连接器:打通易快报与保融资金系统,实现高效财务管理

聚道云软件连接器

案例分享

Vision Pro国行首发,狼真来了,束戈卷甲or秣马厉兵?

AR玩家

AR Rokid Vision pro 炬目AR

心灵解码:数业智能心大陆AI大模型开启数字心理新篇章

心大陆多智能体

一文简述AI自动化漏洞修复实践

云起无垠

漏洞修复 #人工智能

一个热点问题的基本分析

TiDB 社区干货传送门

实践案例

干货分享!基于 Github Action 的 taosX CI 搭建

TDengine

数据库 #TDengine

元数据锁:DML 阻塞 DDL 的问题解读

TiDB 社区干货传送门

TiDB 源码解读

一个慢查询的基本分析

TiDB 社区干货传送门

性能调优 实践案例

同事一根烟还没抽完,我部署好了一套 TiDB 集群

TiDB 社区干货传送门

实践案例 8.x 实践

自动化测试框架选型和落地实践路径

老张

自动化测试 测试框架 技术选型

开源大模型在私有云部署的实践方法论-移卡篇

极客天地

打造新质生产力,国产数据库如何发力?

科技热闻

一文了解 TiDB 的 TTL 功能

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

MySQL 同步 TiDB 之 kettle 性能优化测试

TiDB 社区干货传送门

性能测评

币安未来上币策略:推动区块链创新,超越空投和交易场景

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

揭秘Intel 3:助力新一代产品性能、能效双飞跃!

E科讯

浅谈数据管理架构Data Fabric(数据编织)及关键特征、落地应用

Aloudata

数据管理 数据孤岛 Data Fabric 数据编织

揭秘华为云运维中心,如何守护全球10亿用户的智慧生活体验?

华为云开发者联盟

云计算 华为云 安全运维 华为云开发者联盟 企业号2024年6月PK榜

一步一步教你用 Python 的 Requests 库发送 JSON 数据

Apifox

Python json 程序员 后端 API

1688跨境寻源通API接口丨1688代采集运系统丨1688自动采购物流发货系统

tbapi

1688 1688代采系统 1688跨境寻源通 1688代采

tidb 的成本经

TiDB 社区干货传送门

性能测评

故障排查:PD 的 leader 切换,某 tikv 的 leader 被驱逐

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 故障排查/诊断

TiDB br备份参数影响分析与最佳实践参考

TiDB 社区干货传送门

备份 & 恢复

你还在用ChatGPT3.5吗?来看看ChatGPT-4o有多强

蓉蓉

openai ChatGPT4 gpt4o

mac苹果电脑硬盘检测工具:SMART Utility for mac 激活版

你的猪会飞吗

Mac 软件 mac软件下载 Mac软件推 苹果电脑软件下载

Dubbo3 服务原生支持 http 访问,兼具高性能与易用性

阿里巴巴云原生

阿里云 微服务 云原生 dubbo

超越DALL-E 2?谷歌文本转图像AI模型Imagen首次开放测试_文化 & 方法_凌敏_InfoQ精选文章