写点什么

史上最强 NLP 模型不开源惹众怒,马斯克亲自回应

  • 2019-02-19
  • 本文字数:3494 字

    阅读完需:约 11 分钟

史上最强NLP模型不开源惹众怒,马斯克亲自回应

上周,OpenAI 推出的新通用语言模型 GPT 2.0 引起了一场风暴。该模型被称为“史上最强通用 NLP 模型”,可以生成连贯的文本段落,刷新了 7 大数据集基准,并且能在未经预训练的情况下,完成阅读理解、问答、机器翻译等多项不同的语言建模任务。

然而,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨。这股讨论的浪潮延续至今,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉,直至今天,有人质疑这条新闻引发病毒式传播可能只是一场秀。

GPT 2.0 不开放引发社区声讨

近日,由非营利性人工智能研究公司 OpenAI 创建的一种新语言模型 GPT 2.0 正在酝酿一场风暴,在技术社区和社交网络引起了广泛讨论。让人哭笑不得是, OpenAI 称,因为这个文本生成器性能太好了,他们担忧这项技术会被滥用,因此决定暂不将该模型开源。


随后,整个世界为之疯狂,这条新闻成为了媒体上最热门的消息,一时间各种报道蜂拥而来。


这些报道包括 OpenAI 将其私有化的做法激怒了社区中的一些人,指责这违背了该公司开放其研究的承诺。


在过去的几天里,社区中的一些著名研究人员抨击了 OpenAI。其中巴伊兰大学计算机科学系高级讲师 Yoav Goldberg,加州大学伯克利分校助理教授 Ben Recht 以戏谑的口吻批判,英伟达机器学习研究院主任 Anima Anandkumar 则发表了更为严厉的批评,指责实验室使用“太危险而无法发布”的说法只不过是吸引媒体关注的诱饵。



这里说明一下,我们的实验室在语言理解方面取得了重大突破,但是我们担心它会被滥用,所以决定将其分割,只发布其中的“ACL”。感谢团队的贡献。



PS:目前论文还在 arxiv 审核中,这或者是因为终版 pdf 太大,或者 arxiv 和 OpenAI 一样,认为所有 AI/ML 研究发布太过危险。



这就是一个非黑即白的问题。你们在利用媒体炒作语言模型。关于这个话题的研究有很多。你们声称研究结果效果惊人却只让记者了解个中详情。应该有知情权的是研究人员而不是记者。


但也有人持更加宽容的态度,称此举是一个“新的道德标准”,可以在可能的滥用发生之前进行充分思考。


OpenAI 的政策主管 Jack Clark 回应称,该组织的首要任务是“杜绝恶意或滥用该技术”,“取得平衡非常艰难”,不开放数据、模型和源代码是因为担心有人利用该技术假冒他人或制造假新闻。

马斯克回应争议,重申已离开 OpenAI


随着 OpenAI 陷入口水仗,OpenAI 的资助者之一埃隆·马斯克(Elon Musk)也陷入了争议之中。对此,马斯克坚决表示“这锅我不背!”在今天的一条推文中,他表示“没有参与 OpenAI 公司事务已超过一年”,目前它专注于特斯拉和 SpaceX 的管理。他表示,由于与 OpenAI 团队在一些问题上意见不合,他与该公司已经“和平分手”,疑似回应与 GPT 2.0 相关的争议。


看到这里,GPT 2.0 引发的争议还真是不少。那么,除了上面的热闹之外,我们透过现象看本质,真正应该关心的是这些问题:GPT 2.0 是什么?GPT 2.0 是否被过度赞誉?以及这条新闻的火热是否只是一场炒作?

问题 1:GPT 2.0 是什么?

首先,GPT 2.0 是什么?这个模型是否真的有那么神奇?


简单来说,为进行推理,语言模型将概率分配给单词序列。 通常,他们通过链规则表达这种概率,作为每个单词概率的乘积,以其前因



为条件。或者,人们可以向后训练语言模型,从后向前预测每一个词。 在训练语言模型之后,通常 1)使用它从左到右迭代解码来生成文本,或者 2)将其微调到一些下游监督学习任务。


训练大型神经网络语言模型并随后将它们应用于下游任务已经成为当代 NLP 研究一项非常耗费资源的任务。


在 2018 年的 NAACL,AllenNLP 发布了 ELMo(https://allennlp.org/elmo),这是一个由 10 亿字 benchmark 训练的大规模前向和后向语言模型组成的系统。他们证明了该模型可用于在许多下游任务中实现最优性能。


随后,谷歌研究人员发布了 BERT(https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html),这是一个使用 Transformer 架构,与语言建模目标略有不同的填空学习目标模型。


如果你从事 NLP 领域的工作,在过去一年中可能听到“ELMo”和“BERT”的次数比听到自己的名字还多。在 NLP 文献中,由于这些技术的普及,它们已成为名副其实的停用词。


AI 前线注: 停用词 Stop Words,是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。


12 月,Google 的 Magenta 团队研究深度学习的创新性应用,将 Transformer 架构应用于“语言建模”任务,生成了音乐而不是文本(https://magenta.tensorflow.org/music-transformer)。成果的连贯性非常可喜。


快退到周四:OpenAI 在一个名为 WebText 的大型新数据集上训练了一个大型语言模型,该数据集包含爬取自 4500 万个链接的数据。研究人员构建了一个有趣的数据集,使用现在标准的工具,生成了令人印象深刻的模型。经过在许多下游零射击学习任务上进行评估,该模型通常优于以前的方法。同样值得注意的是,与 Music Transformer 的结果一样,生成的样本似乎比以前的结果更连贯。这样的结果很有趣,但并不令人惊讶。


它们代表着 NLP 向前迈出的一步,整个社区已经走上了这条道路。

问题 2:GPT 2.0 是否被过誉?

其实,GPT 2.0 虽然一夜爆红,但却不是一日之功,GPT 比 BERT 还更早出现,但却没有像 BERT 一样一出世就受到广泛的关注。



本质上来说,GPT 2.0 的大框架其实还是 GPT 1.0 的框架,但是把第二阶段的 Finetuning 做有监督地下游 NLP 任务,换成了无监督地做下游任务,最大的改进就在于把 Transformer 模型参数扩容,参数规模达 15 亿,这个规模前所未有。有关 GPT 2.0 和 GPT 1.0 更详细的信息,请参考《效果逆天的通用语言模型GPT 2.0来了!它告诉了我们什么?》


总的来说,GPT 2.0 作为语言模型,用来生成自然语言句子或者段落的能力特别强,这从 OpenAI 官博上放出的生成示例就可以看出:


“回收对世界不利。这对环境有害,对我们的健康有害,对经济不利。我不是在开玩笑。回收利用对环境不利。它对地球具有破坏性,是全球变暖的主要原因。回收利用对我们的健康不利。它导致肥胖和心脏病和癌症等疾病。回收利用对我们的经济不利。它增加了产品的成本,反过来又提高了产品的价格。回收利用对我们国家不利。我们为拥有世界上最先进和最有效的回收系统的特权付出了巨大的代价。回收浪费了大量时间、精力、金钱和资源。“


回收对世界有益,几乎每个人都同意这个观点,但是 GPT 2.0 反其道而行,难怪 OpenAI 担心发布模型会导致这项技术被滥用。



GPT-2在Winograd Schema,LAMBADA和其他语言建模任务上达到了最先进的水平。


在前面提到的文章中,新浪微博资深算法专家张俊林表示,对于 GPT 2.0 的改进方向来说,如何加入情节约束,产生特别好的生成文章,这是个很有前途的方向。而在这点上,GPT 2.0 的贡献是给我们指出了一条路,就是 Transformer+ 刷数据量,省心省力费机器的一条路。另外,Transformer 之前在语言模型上通常做不过 RNN,虽然有后续研究表明它可以达到 RNN 类似的效果,但是 GPT 2.0 无疑进一步突破了这个障碍,为 Transformer 的进一步攻城略地打下了坚实的基础。


从这一角度来说,GPT 2.0 的性能不能被认为是过度赞誉。

问题 3:OpenAI 是否在炒作?

那么,OpenAI 不公开数据和源码究竟是不是如上文 Anima Anandkumar 所说是一场炒作呢?一方面,OpenAI 经常谈到他们对“AI”技术落入坏人手中的担忧,结合这个模型生成的假文章,他们的担忧似乎合理。另一方面,OpenAI 向来喜欢哗众取宠,经常通过官博将不成熟的工作推向公众视野以博取关注。


这些例子包括诱导《纽约时报》报道了其本质上平平无奇的发现,即如果强化学习用了错误的目标函数,就学不到让你满意的策略(https://www.nytimes.com/2017/08/13/technology/artificial-intelligence-safety-training.html)。


毕竟,这些重大故事与 OpenAI 博客上的新闻稿一脉相承,OpenAI 可能会故意策划了这么一出,让媒体大肆报道。


实际上,这项工作似乎是主流 NLP 研究的中间阶段,这是一项很好的工作,也很可能会被公布,在未来一两个月内,同样强大的 NLP 实验室可能会出现同样的成果。


也许,这篇博客会在媒体上形成病毒式传播与当今新闻的供需生产模式有关,按需生产的新闻已经非常常见,官方 PR 博客已经成为新闻生产的可靠消息源,从而广为传播。


但笔者认为,即使是使用了一些 PR 的手段,也掩盖不了 GPT 2.0 出色的语言生成性能,一项好的研究成果首先应该被人所知,才能发挥应有的作用,而不是默默躲在黑暗的角落等待被发掘。


参考链接:


http://approximatelycorrect.com/2019/02/17/openai-trains-language-model-mass-hysteria-ensues/

延伸阅读

《效果逆天的通用语言模型GPT 2.0来了!它告诉了我们什么?》


更多内容,请关注 AI 前线。



2019-02-19 07:554740
用户头像

发布了 42 篇内容, 共 14.2 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

60岁代码匠的几篇小作文,解决了大多数程序的迷茫(上)

图灵社区

java 编程

复盘和反思一个被全公司邮件通报的漏测

LynnYang

测试 Postman Mock

深入解析Apache Pulsar系列: Broker消息确认的管理

博文视点Broadview

60岁代码匠的几篇小作文,解决了大多数程序的迷茫(下)

图灵社区

java 编程

无服务器应用DevOps最新实践(内附完整演讲+视频)

亚马逊云科技 (Amazon Web Services)

计算

IT运维人员日常工作包含哪些?核心任务是什么?工作量多吗?

行云管家

运维 IT运维 服务器运维

Bruce Eckel教你如何爬出 Gradle 的“坑”?

图灵社区

java 编程

Flink是如何支持批流一体的

编程江湖

flink

物联网场景中灵活实施对设备的控制管理

亚马逊云科技 (Amazon Web Services)

analytics

AJAX工作原理及其优缺点

编程江湖

iOS——解密RunLoop原理

iOSer

ios iOS面试 ios开发 RunLoop

建木持续集成平台v2.2.0发布

Jianmu

开源 持续集成 CI/CD

大数据平台中的企业级数仓建设

五分钟学大数据

数据仓库 1月月更

全面提升体系化数据管理能力 | OceanBase 发布全新3.X工具家族

OceanBase 数据库

数据库 开源 开发者 OceanBase 社区版 产品发布

vivo 推送平台架构演进

vivo互联网技术

分布式 架构设计 消息推送 平台搭建、

都2022年了,你的前端工具集应该有vueuse

华为云开发者联盟

Vue 前端 API 工具集 vueuse

Flink,Spark,Storm,Hadoop框架比较

@零度

flink hadoop spark Storm 大数据开发

2022年RPA行业发展十大趋势,六千字长文助你看懂RPA

王吉伟频道

RPA 机器人流程自动化 RPAaaS 超自动化 自动化优先

手把手教程|通过部署 Apache Superset 实现 Amazon S3 的数据可视化

亚马逊云科技 (Amazon Web Services)

analytics

4 种高速安全混合云解决方案,助力您的云迁移之旅!

亚马逊云科技 (Amazon Web Services)

网络

数据安全是指什么?有什么意义?

行云管家

防火墙 信息安全 数据安全 堡垒机

几行代码,把zip文件直接破解

你?

Linux下玩转nginx系列(一)——初识nginx及其使用入门

anyRTC开发者

nginx Linux 音视频 WebRTC 服务器

第二节:SpingBoot单元测试

入门小站

java 编程

阿里云视频云「 vPaaS 」演绎了怎样的音视频应用开发「未来图景」?

阿里云视频云

阿里云 音视频 低代码 低代码开发平台 视频云

在字节,A/B 实验是这么做的!

字节跳动数据平台

大数据 字节跳动 AB testing实战 ab测试

这8个JS 新功能,你应该去尝试一下

华为云开发者联盟

JavaScript 前端 开发 索引 开发语言

改进企业CRM系统实施的方法

低代码小观

企业管理 CRM 企业管理系统 CRM系统 企业管理工具

LeetCode 每日一题 No.1220 统计元音字母序列的数目

DawnMagnet

rust LeetCode 力扣

前端开发之Vue事件修饰符和按键修饰符

@零度

Vue 前端开发

java开发之Redis数据结构

@零度

redis JAVA开发

史上最强NLP模型不开源惹众怒,马斯克亲自回应_开源_陈利鑫_InfoQ精选文章