写点什么

谷歌亮出 AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E 要被碾压了?

  • 2022-06-09
  • 本文字数:1950 字

    阅读完需:约 6 分钟

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?

如今的AI领域出现了一波新趋势——文本到图像生成器。只要把文本描述输入这些程序,它们主涌生成与描述内容高度匹配的精准图片。这些程序还支持各种风格,从油画、CGI 渲染再到实景照片无所不包。总之,只有你想不到,没有它画不出。

 

此前,该领域的领导者一直是DALL-E——由商业 AI 实验室 OpenAI 开发的程序(今年 4 月刚刚完成更新)。但就在昨天,谷歌也拿出了自己的王牌:Imagen,并在输出质量上一举压倒了 DALL-E。

 

以下图片均由 Imagen 生成:



一张戴着宇航员头盔的浣熊在晚上看着窗外的照片



乘坐火箭飞船前往月球的大脑



一只狗好奇地照镜子,看到一只猫



一对机器人夫妇在埃菲尔铁塔的背景下享用美食

 


撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌

 

要了解这些模型有什么本事,当然是先从它们生成的作品开始。(感兴趣的朋友可以访问Imagen登陆页面查看更多示例)。

 

可以看到,图像下方的文本就是输入给程序的提示,图像则是输出结果。就这么简单,告诉程序自己想看什么,Imagen 就能自行创作。这可太棒了!

 


虽然这些照片的连续性和准确性都给人留下了深刻印象,但我们旁观者也至少要保持住清醒的头脑。毕竟像Google Brain这类研究团队公布新的 AI 模型时,往往会挑选出质量最高的结果。所以虽然图片看起来非常完美,但恐怕无法代表这套图像系统的平均输出水平。

请记住:谷歌只会让你看到最好的图片

 

以往,文本到图像模型生成的图片看起来都不大完整,而且画面是相当模糊。OpenAI的 DALL-E 生成的图片就有这些问题。

 

谷歌表示不服,宣称 Imagen 生成的图像已经全线超越了 DALL-E 2,原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。

 

DrawBench 的测试指标并不是特别复杂:本质上,它就是一份包含约 200 条文本提示的列表,谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里,再由人工评分员判断各程序的输出质量。如下图所示,谷歌发现人类往往更喜欢 Imagen 的输出,对其他竞争模型的作品评价相对较低。

 


 谷歌 DrawBench 基准将 Imagen 的输出,与 OpenAI 的 DALL-E 2 等文本到图像竞争对手进行比较。

 

但这都是谷歌说的,而且他们还没有全面开放 Imagen 模型,所以我们也不知道是真是假。不开放也有不开放的理由,毕竟文本到图像模型虽然具有巨大的创造潜力,但在恶意使用之下也有可能引发严重后果。想象一下,如果这样一套系统能够生成我们想要的任何图像,那假新闻、恶作剧或者骚扰性素材还不满天飞?谷歌方面也强调,这些系统在训练过程中也不可避免接触到了社会偏见,所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容

 

老话说得好:垃圾进、垃圾出,AI 也不例外

这主要源自此类系统的编程方式。从本质上讲,它们依靠大量数据进行训练(对 Imagen 来说,使用的就是图像加文本组合),从数据中发现模式并尝试重现。但要想得出可靠的结论,模型就得接触巨量数据。即使是谷歌这样资金雄厚的科技巨头,也很难在研究团队之内把所有输入信息都全部过滤一遍。因此,他们只能从网络上直接抓取内容,所以网上那些有毒言论和信息也就不免要渗透到 AI 模型当中。

 

谷歌研究人员在他们的论文中也做出总结:“文本到图像模型往往需要大规模数据作为支持……因此研究人员高度依赖于大型、通常未经梳理、直接从网络上抓取到的数据集……数据集审计结果显示,这类数据内容往往会反映社会上的刻板印象、压迫性观点、对边缘化身份群体的贬损等有害关联内容。”

 

换句话说,计算机科学家们的那句老话说得好:垃圾进、垃圾出,AI 也不例外。

 

谷歌并没有具体解释 Imagen 到底生成了哪些令人不安的内容,但强调这套模型“编码了几种社会偏见和刻板印象,例如总体更倾向于生成肤色较浅的人像,也更倾向于生成符合西方世界刻板印象的职业与性别组合。”

 

同样的问题在 DALL-E 身上也有出现。例如,在让 DALL-E 生成“空乘人员”图像时,给出的几乎全是女性形象。而如果要求生成“CEO”图片,得到的就基本都是“老白男”。

 

面对这个问题,OpenAI 也决定不公开发布 DALL-E,只面向一部分特定人员开放 beta 测试。他们还过滤了某些文本输入,希望阻止模型生成种族主义、暴力或色情图像。这些举措确实在一定程度上限制了技术的潜在有害应用,但 AI 技术的发展史告诉我们,这种文本到图像模型早晚会被公之于众,到那时候一切令人不安的影响都将如洪水般倾泄而出。

 

谷歌自己的结论是,Imagen“目前尚不适合公众使用”,并表示计划开发一种新方法来衡量“未来工作中的社会与文化偏见”,希望借此测试模型的后续迭代。但就目前来看,谷歌展示的图片确实质量颇高——头戴王冠的浣熊和墨镜下的柯基犬都相当带感。不过这还只是冰山一角,如果要想展现全部真容,Imagen 先得搞定技术研究可能引发的意外后果。

 

原文链接:

https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper?ref=refind

2022-06-09 21:0014799
用户头像
李冬梅 加V:busulishang4668

发布了 1223 篇内容, 共 837.4 次阅读, 收获喜欢 1316 次。

关注

评论 2 条评论

发布
用户头像
垃圾进、垃圾出,AI 也不例外
2022-06-14 05:31
回复
用户头像
不错哦
2022-06-11 09:18
回复
没有更多了
发现更多内容

凭借这份国内最新最全Java八股文(终极版),我成功入职字节T2-2

Summer

Java 编程 程序员 面试 架构师

深度解析Spring AI:请求与响应机制的核心逻辑

不在线第一只蜗牛

Java spring

TON链小游戏开发:探索GameFi链游技术的未来

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

Solana VS 以太坊:基于数据、市场情绪和催化剂对比分析,Solana 能否实现逆袭?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

保护Active Directory:备份和恢复的重要性及实施指南

运维有小邓

备份恢复 AD域 IT自动化运维

Voice Agent 开发者必读,2024 最前沿语音模型梳理

RTE开发者社区

苹果电脑清理软件哪个好?专业的Mac系统维护工具推荐

阿拉灯神丁

性能优化 CleanMyMac X 清理优化 如何清理苹果电脑 mac系统维护软件

数据可视化的发展趋势

inBuilder低代码平台

数据可视化

淘宝月销API接口开发实战

联讯数据

天润融通助力味多美,AI技术驱动百年品牌服务升级

天润融通

ArkUI与MVVM模式的诗和远方

威哥爱编程

HarmonyOS arkui ArkTS HarmonyOS框架 HarmonyOS NEXT

和鲸助力国防科技信息数据挖掘能力征集活动圆满落幕!

ModelWhale

Python 人工智能 大数据 R语言 国防科技

Taobao Agent Russia丨俄罗斯淘宝代购集运系统PHP搭建攻略

tbapi

淘宝代购系统 淘宝代购集运系统 俄语网站建设 俄语淘宝代购系统

观测云采集云资源自定义标签最佳实践

观测云

云计算 云资源

全网最全:JVM+分布式+算法+锁+MQ+微服务+数据库499道JAVA面试题

程序员高级码农

Java 编程 程序员 java面试 Java面试题

融云参与「全球首个运营商级量子加密办公应用」量子密信生态开放合作签约

融云 RongCloud

阿里P8精心整理MongoDB+RabbitMQ+Memcached面试题,100%拿offer

程序员高级码农

Java 编程 程序员 java面试 Java面试题

AI人工智能软件哪个好?30个办公常用的ai工具盘点!

职场工具箱

人工智能 AI 办公软件 AIGC AI生成PPT

解密时序数据库的未来:TDengine Open Day技术沙龙精彩回顾

TDengine

数据库 tdengine

天润融通亮相CCFA论坛:AI Agent引领零售业服务精细化运营

天润融通

谷歌亮出AI“王牌”,生成超逼真图片,网友:OpenAI DALL-E要被碾压了?_文化 & 方法_James Vincent_InfoQ精选文章