【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

OpenAI 创建文本生成器 GPT-2,因性能“太好”不敢发布引争议

  • 2019-02-18
  • 本文字数:1308 字

    阅读完需:约 4 分钟

OpenAI创建文本生成器GPT-2,因性能“太好”不敢发布引争议

近日,由非营利性人工智能研究公司 OpenAI 建立的一种新语言模式正在酝酿一场风暴,在技术社区和社交网络引起广泛讨论。然而让人哭笑不得是,因为这个文本生成器性能太好了,以至于 OpenAI 担忧其将会导致滥用,因此决定暂不将其发布开源。


这激怒了社区中的一些人,指责这违背了该公司开放其研究的承诺。


OpenAI 表示,这个新的自然语言模型 GPT-2 经过 40 千兆字节互联网文本样本的训练,可预测下一个单词。最终结果显示,系统生成“符合上下文环境文本风格和内容”的文本,让用户“为他们选择的主题生成真实和连贯的语句。”该模型的第一版巨大改进可产生具有一致性、更长的文本。




GPT-2 在 Winograd Schema,LAMBADA 和其他语言建模任务上获得了最先进的水平。


但是,随着系统的应用改善,研究人员发现机器人能够进行更好的对话和更好的语音识别,但是也能生成假新闻,冒充他人,或在社交媒体上辱骂或进行垃圾评论。


例如:当 GPT-2 的任务是对某一话题评论:回收对世界有益,几乎每个人都同意这个观点,但是机器会反其道而行:


“回收对世界不利。这对环境有害,对我们的健康有害,对经济不利。我不是在开玩笑。回收利用对环境不利。它对地球具有破坏性,是全球变暖的主要原因。回收利用对我们的健康不利。它导致肥胖和心脏病和癌症等疾病。回收利用对我们的经济不利。它增加了产品的成本,反过来又提高了产品的价格。回收利用对我们国家不利。我们为拥有世界上最先进和最有效的回收系统的特权付出了巨大的代价。回收浪费了大量时间、精力、金钱和资源。“


难怪 OpenAI 担心发布它。


出于这个原因,OpenAI 表示其将只发布一个较小版本的语言模型版本,引用其章程,该组织指出,其预计“未来出于安全和安全问题考虑,我们将减少发布。”不可否认,该组织表示它并不确定此决定,“我们相信 AI 社区最终需要在某些研究领域以深思熟虑的方式解决发布规范问题。”


但并不是所有人都买账。OpenAI 宣布 GPT-2 的推文下满是愤怒和沮丧,指责该公司“关闭”其研究,做了与该公司名称相反的事。



我已经通读了章程,但是如果你们“关闭”你们的研究,你们倒不如叫自己“AI 看门人”之类的吧。


OpenAI 的政策主管 Jack Clark 回应,该组织的首要任务是“杜绝恶意或滥用该技术”,称“取得平衡非常艰难”。


也有人持更加宽容的态度,称此举是一个“新的道德标准”,可以在可能的滥用发生之前进行充分思考。


最近 OpenAI 的资助者之一埃隆·马斯克(Elon Musk)也陷入了争议之中,在一条推文中,他表示“没有参与该公司事务已超过一年”,而且他和公司已经“和平分手”,以专注于特斯拉和 SpaceX 的管理。



OpenAI 表示,其尚未就 GPT-2 发布的做出最终决定,并将在六个月内重新审视该问题。与此同时,该公司表示,政府“应考虑扩大或开始采取措施,更系统地监控人工智能技术的社会影响和传播,并衡量此类系统能力的进步。”


就在本周,特朗普总统签署了人工智能行政命令。几个月后,美国 AI 界警告说,人工智能是美国国家安全的“新兴威胁”之一,除此之外,其他安全威胁还包括量子计算和无人车。


参考链接:https://techcrunch.com/2019/02/17/openai-text-generator-dangerous/


https://blog.openai.com/better-language-models/#sample8


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-02-18 13:556766
用户头像

发布了 98 篇内容, 共 62.4 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论
发现更多内容

OpenHarmony 4.0 Beta2新版本发布,邀您体验

OpenHarmony开发者

OpenHarmony

SpringBoot 的优雅的接口参数验证

java易二三

Java 编程 程序员 计算机

[小笔记] Java 线程池

java易二三

Java 程序员 线程 线程池 计算机

ARTS 0819 打卡

冰封的鸢尾花

ARTS 打卡计划

十年磨一剑的华为云GES,高明在哪

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

酷睿轻薄本也能运行大语言模型,英特尔推动 PC 生成式 AI 落地

E科讯

火山引擎DataLeap基于Apache Atlas自研异步消息处理框架

字节跳动数据平台

数据中台 数据治理 数据安全 数据研发 企业号 8 月 PK 榜

PCB工艺制程能力介绍及解析(上)

华秋电子

PCB

Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生

网易数帆

大数据 spark 云原生 Kyuubi Celeborn

R语言之 dplyr 包

timerring

R 语言

如何基于 Kubernetes 实现优质开发者平台体验?

SEAL安全

Kubernetes IdP 平台工程 内部开发者平台

小灯塔系列-中小企业数字化转型系列研究——文档协作测评报告

向量智库

超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据

汀丶人工智能

人工智能 大语言模型 ChatGLM-6B bloom

窗口到底有多滑动?揭秘TCP/IP滑动窗口的工作原理

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

汀丶人工智能

人工智能 自然语言处理 大语言模型

最新中文 Keka for Mac(压缩解压工具) v1.3.3

mac大玩家j

解压缩软件 解压软件 解压缩工具

Python案例|Matplotlib库实现的数据分析

TiAmo

Python 数据挖掘 数据分析

解锁多核处理器的力量:探索数据并行化在 Java 8 Stream 中的应用

java易二三

Java 程序员 计算机

多币种挖矿dapp流动性LP令牌质押开发搭建[源码部署]

V\TG【ch3nguang】

质押挖矿 流动性挖矿

Forrester首次面向中国的开源报告:阿里云在云原生领域开源布局最全面

阿里巴巴云原生

阿里云 开源 云原生

一文了解JVM对象内存布具以及内存分配规则

java易二三

Java 程序员 JVM 计算机

盲盒商城模式玩法,盲盒商城系统开发搭建

V\TG【ch3nguang】

盲盒商城 盲盒开发

Java 面试题——MySQL 索引篇

郑在暴富中

Java 面试题 MySQL索引

NFT交易市场/艺术品交易商城模式系统开发搭建

V\TG【ch3nguang】

NFT 数字藏品开发

OpenAI创建文本生成器GPT-2,因性能“太好”不敢发布引争议_AI&大模型_Jackson_InfoQ精选文章