10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

OpenAI 创建文本生成器 GPT-2,因性能“太好”不敢发布引争议

  • 2019-02-18
  • 本文字数:1308 字

    阅读完需:约 4 分钟

OpenAI创建文本生成器GPT-2,因性能“太好”不敢发布引争议

近日,由非营利性人工智能研究公司 OpenAI 建立的一种新语言模式正在酝酿一场风暴,在技术社区和社交网络引起广泛讨论。然而让人哭笑不得是,因为这个文本生成器性能太好了,以至于 OpenAI 担忧其将会导致滥用,因此决定暂不将其发布开源。


这激怒了社区中的一些人,指责这违背了该公司开放其研究的承诺。


OpenAI 表示,这个新的自然语言模型 GPT-2 经过 40 千兆字节互联网文本样本的训练,可预测下一个单词。最终结果显示,系统生成“符合上下文环境文本风格和内容”的文本,让用户“为他们选择的主题生成真实和连贯的语句。”该模型的第一版巨大改进可产生具有一致性、更长的文本。




GPT-2 在 Winograd Schema,LAMBADA 和其他语言建模任务上获得了最先进的水平。


但是,随着系统的应用改善,研究人员发现机器人能够进行更好的对话和更好的语音识别,但是也能生成假新闻,冒充他人,或在社交媒体上辱骂或进行垃圾评论。


例如:当 GPT-2 的任务是对某一话题评论:回收对世界有益,几乎每个人都同意这个观点,但是机器会反其道而行:


“回收对世界不利。这对环境有害,对我们的健康有害,对经济不利。我不是在开玩笑。回收利用对环境不利。它对地球具有破坏性,是全球变暖的主要原因。回收利用对我们的健康不利。它导致肥胖和心脏病和癌症等疾病。回收利用对我们的经济不利。它增加了产品的成本,反过来又提高了产品的价格。回收利用对我们国家不利。我们为拥有世界上最先进和最有效的回收系统的特权付出了巨大的代价。回收浪费了大量时间、精力、金钱和资源。“


难怪 OpenAI 担心发布它。


出于这个原因,OpenAI 表示其将只发布一个较小版本的语言模型版本,引用其章程,该组织指出,其预计“未来出于安全和安全问题考虑,我们将减少发布。”不可否认,该组织表示它并不确定此决定,“我们相信 AI 社区最终需要在某些研究领域以深思熟虑的方式解决发布规范问题。”


但并不是所有人都买账。OpenAI 宣布 GPT-2 的推文下满是愤怒和沮丧,指责该公司“关闭”其研究,做了与该公司名称相反的事。



我已经通读了章程,但是如果你们“关闭”你们的研究,你们倒不如叫自己“AI 看门人”之类的吧。


OpenAI 的政策主管 Jack Clark 回应,该组织的首要任务是“杜绝恶意或滥用该技术”,称“取得平衡非常艰难”。


也有人持更加宽容的态度,称此举是一个“新的道德标准”,可以在可能的滥用发生之前进行充分思考。


最近 OpenAI 的资助者之一埃隆·马斯克(Elon Musk)也陷入了争议之中,在一条推文中,他表示“没有参与该公司事务已超过一年”,而且他和公司已经“和平分手”,以专注于特斯拉和 SpaceX 的管理。



OpenAI 表示,其尚未就 GPT-2 发布的做出最终决定,并将在六个月内重新审视该问题。与此同时,该公司表示,政府“应考虑扩大或开始采取措施,更系统地监控人工智能技术的社会影响和传播,并衡量此类系统能力的进步。”


就在本周,特朗普总统签署了人工智能行政命令。几个月后,美国 AI 界警告说,人工智能是美国国家安全的“新兴威胁”之一,除此之外,其他安全威胁还包括量子计算和无人车。


参考链接:https://techcrunch.com/2019/02/17/openai-text-generator-dangerous/


https://blog.openai.com/better-language-models/#sample8


2019-02-18 13:557130
用户头像

发布了 98 篇内容, 共 66.7 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

大数据之面试篇之Hadoop/HDFS/Yarn

@零度

大数据 面试题

拍乐云测试自动化实践

拍乐云Pano

DevOps 敏捷开发 自动化测试

Linux之mv命令

入门小站

Linux

【教程直播第4期】揭秘数据迁移之 OceanBase CDC & OMS 社区版能力

OceanBase 数据库

oceanbase OceanBase 开源 OceanBase 社区版

记字节前端面试一道简单的算法题

全栈潇晨

LeetCode 算法面试

一文搞懂TopK问题

bigsai

数据结构 算法

【北京讲座报名!】12月26日与深度学习大牛共赋技术之约!

亚马逊云科技 (Amazon Web Services)

人工智能 深度学习 活动 ML

Kafka-Broker的基本模块

编程江湖

大数据

Java 泛型通配符详解

编程江湖

JAVA开发 java编程

带你尝鲜LiteOS 组件EasyFlash

华为云开发者联盟

LiteOS 组件 EasyFlash 嵌入式闪存库 Flash

MySQL数据库升级后如何防止性能下降

@零度

MySQL

volatile和synchronzied的区别

悟空聊架构

synchronized 28天写作 悟空聊架构 12月日更 volatitle

react源码解析13.hooks源码

buchila11

React

react源码解析14.手写hooks

buchila11

React

dart系列之:dart优秀的秘诀-隔离机制

程序那些事

flutter dart 程序那些事 12月日更 flutter for web

跳出问题限制来解决问题-cacerts证书库的证书丢失的解决

superman

跳出问题解决问题 命题似解决 cacerts证书库

恒源云(GPUSHARE)_LLD: 内部数据指导的标签去噪方法【ACL 2022】

恒源云

人工智能 深度学习

公安情报研判系统开发,情报可视化分析研判平台解决方案

电微13828808271

VUEX的store用法

CRMEB

Linux一学就会之Linux系统启动原理及故障排除

学神来啦

Linux 运维 黑客 linux运维 linux云计算

重点人员动态管控系统开发,智慧公安预警管控平台

电微13828808271

在线JSON转sarcastic工具

入门小站

工具

百度搜索中台海量数据管理的云原生和智能化实践

百度Geek说

架构 云原生 后端 百度搜索

资本巨头纷纷入局,DAO究竟有何魔力?

旺链科技

区块链 组织 DAO

养孩子到底有多难?

Tiger

28天写作

智慧社区综合服务管理平台,社区管理系统搭建

电微13828808271

医疗的客户体验

张老蔫

28天写作

Vue 路由组件传参的 8 种方式

编程江湖

Vue 前端开发

DataPipeline实时数据融合产品入驻青云云市场,催化企业数据价值释放

DataPipeline数见科技

大数据 中间件 Big Data 数据融合 数据管理

30个类手写Spring核心原理之自定义ORM(上)(6)

Tom弹架构

Java spring 源码

Java开发之命名规范

@零度

Java 命名规范

OpenAI创建文本生成器GPT-2,因性能“太好”不敢发布引争议_AI&大模型_Jackson_InfoQ精选文章