写点什么

谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?

  • 2022-06-09
  • 本文字数:1950 字

    阅读完需:约 6 分钟

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?

如今的AI领域出现了一波新趋势——文本到图像生成器。只要把文本描述输入这些程序,它们主涌生成与描述内容高度匹配的精准图片。这些程序还支持各种风格,从油画、CGI 渲染再到实景照片无所不包。总之,只有你想不到,没有它画不出。

 

此前,该领域的领导者一直是DALL-E——由商业 AI 实验室 OpenAI 开发的程序(今年 4 月刚刚完成更新)。但就在昨天,谷歌也拿出了自己的王牌:Imagen,并在输出质量上一举压倒了 DALL-E。

 

以下图片均由 Imagen 生成:



一张戴着宇航员头盔的浣熊在晚上看着窗外的照片



乘坐火箭飞船前往月球的大脑



一只狗好奇地照镜子,看到一只猫



一对机器人夫妇在埃菲尔铁塔的背景下享用美食

 


撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌

 

要了解这些模型有什么本事,当然是先从它们生成的作品开始。(感兴趣的朋友可以访问Imagen登陆页面查看更多示例)。

 

可以看到,图像下方的文本就是输入给程序的提示,图像则是输出结果。就这么简单,告诉程序自己想看什么,Imagen 就能自行创作。这可太棒了!

 


虽然这些照片的连续性和准确性都给人留下了深刻印象,但我们旁观者也至少要保持住清醒的头脑。毕竟像Google Brain这类研究团队公布新的 AI 模型时,往往会挑选出质量最高的结果。所以虽然图片看起来非常完美,但恐怕无法代表这套图像系统的平均输出水平。

请记住:谷歌只会让你看到最好的图片

 

以往,文本到图像模型生成的图片看起来都不大完整,而且画面是相当模糊。OpenAI的 DALL-E 生成的图片就有这些问题。

 

谷歌表示不服,宣称 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。如下图所示,谷歌发现人类往往更喜欢 Imagen 的输出,对其他竞争模型的作品评价相对较低。

 


 谷歌 DrawBench 基准将 Imagen 的输出,与 OpenAI 的 DALL-E 2 等文本到图像竞争对手进行比较。

 

但这都是谷歌说的,而且他们还没有全面开放 Imagen 模型,所以我们也不知道是真是假。不开放也有不开放的理由,毕竟文本到图像模型虽然具有巨大的创造潜力,但在恶意使用之下也有可能引发严重后果。想象一下,如果这样一套系统能够生成我们想要的任何图像,那假新闻、恶作剧或者骚扰性素材还不满天飞?谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容

 

老话说得好:垃圾进、垃圾出,AI 也不例外

这主要源自此类系统的编程方式。从本质上讲,它们依靠大量数据进行训练(对 Imagen 来说,使用的就是图像加文本组合),从数据中发现模式并尝试重现。但要想得出可靠的结论,模型就得接触巨量数据。即使是谷歌这样资金雄厚的科技巨头,也很难在研究团队之内把所有输入信息都全部过滤一遍。因此,他们只能从网络上直接抓取内容,所以网上那些有毒言论和信息也就不免要渗透到 AI 模型当中。

 

谷歌研究人员在他们的论文中也做出总结:“文本到图像模型往往需要大规模数据作为支持……因此研究人员高度依赖于大型、通常未经梳理、直接从网络上抓取到的数据集……数据集审计结果显示,这类数据内容往往会反映社会上的刻板印象、压迫性观点、对边缘化身份群体的贬损等有害关联内容。”

 

换句话说,计算机科学家们的那句老话说得好:垃圾进、垃圾出,AI 也不例外。

 

谷歌并没有具体解释 Imagen 到底生成了哪些令人不安的内容,但强调这套模型“编码了几种社会偏见和刻板印象,例如总体更倾向于生成肤色较浅的人像,也更倾向于生成符合西方世界刻板印象的职业与性别组合。”

 

同样的问题在 DALL-E 身上也有出现。例如,在让 DALL-E 生成“空乘人员”图像时,给出的几乎全是女性形象。而如果要求生成“CEO”图片,得到的就基本都是“老白男”。

 

面对这个问题,OpenAI 也决定不公开发布 DALL-E,只面向一部分特定人员开放 beta 测试。他们还过滤了某些文本输入,希望阻止模型生成种族主义、暴力或色情图像。这些举措确实在一定程度上限制了技术的潜在有害应用,但 AI 技术的发展史告诉我们,这种文本到图像模型早晚会被公之于众,到那时候一切令人不安的影响都将如洪水般倾泄而出。

 

谷歌自己的结论是,Imagen“目前尚不适合公众使用”,并表示计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。但就目前来看,谷歌展示的图片确实质量颇高——头戴王冠的浣熊和墨镜下的柯基犬都相当带感。不过这还只是冰山一角,如果要想展现全部真容,Imagen 先得搞定技术研究可能引发的意外后果。

 

原文链接:

https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper?ref=refind

2022-06-09 21:0014782
用户头像
李冬梅 加V:busulishang4668

发布了 1208 篇内容, 共 833.0 次阅读, 收获喜欢 1313 次。

关注

评论 2 条评论

发布
用户头像
垃圾进、垃圾出,AI 也不例外
2022-06-14 05:31
回复
用户头像
不错哦
2022-06-11 09:18
回复
没有更多了
发现更多内容

社交软件上“你可能认识的人”到底是怎么找到你的?

华为云开发者联盟

知识图谱 社交软件 TransE模型 用户画像 知识图谱补全

北鲲云超算平台——致力于提高科研效率,降低计算成本的云超算平台

北鲲云

GIN钱包挖矿系统开发|GIN钱包挖矿软件APP开发

项目经理的职责和权限分别是什么?

万事ONES

项目管理 ONES 项目经理

DDD笔记

topsion

从零实现一个 k-v 存储引擎

roseduan

存储 Go 语言 KV存储引擎 存储系统

今天,「浪潮云说」直播间开讲啦!

云计算

BHDEX币挖矿APP系统开发内容

Serverless 崛起背后的五大挑战

Serverless Devs

Serverless

从结构体、内存池初始化到申请释放,详细解读鸿蒙轻内核的动态内存管理

华为云开发者联盟

鸿蒙

Camtasia实用技巧之智能聚焦

淋雨

视频剪辑 Camtasia 专业录屏

真happy软件开发|真happy系统APP开发

2022秋招vue面试题+答案

buchila11

Vue Vue 3

如何做需求分析?

万事ONES

产品经理 需求分析 ONES

JAVA 九种排序算法详解(中)

加百利

Java 数组 排序 7月日更

NumPy_2021.07.05

Flychen

免费分享学习Java框架Netty的优秀图书

Java入门到架构

Java 书籍推荐

聊聊数据仓库中维度表设计的二三事

云祁

数据仓库 维度建模 7月日更

Go 学习笔记之 整型数据类型

架构精进之路

Go 语言 7月日更

快看吧系统开发|快看吧软件APP开发

XRP瑞波币系统开发|XRP瑞波币软件APP开发

国家网信办:“滴滴出行” 下架整改!

学神来啦

云图说 | 华为云医疗智能体智联大健康:AI医学影像

华为云开发者联盟

AI 医学影像 医疗智能体 华为云医疗智能体 大健康

如何给MindSpore添加一个新的硬件后端?快速构建测试环境!

华为云开发者联盟

AI 模型 框架 mindspore

聚星公社软件开发|聚星公社APP系统开发

《持之以恒的从事运动》二

Changing Lin

Nacos配置中心交互模型是 push 还是 pull ?你应该这么回答

程序员小富

Java 编程 程序员 分布式 nacos

微摩尔WMO软件系统开发介绍

系统故障防不胜防?不存在的,让大佬来给你上一课!

TakinTalks稳定性社区

高可用 测试 全链路压测 测试工具 生产环境全链路压测

数字化转型提升太平洋保险风险治理能力

数据湖洞见

大数据

Java开发从二面被拒到收割阿里架构offer,我花了一年时间,复盘成功经历!

Java架构追梦

Java 阿里巴巴 架构 offer 成长笔记

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?_文化 & 方法_James Vincent_InfoQ精选文章