写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


2019-05-05 10:506415
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 297.6 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

Rtmp Message 与 Chunk格式

webrtc developer

RTMP

神马操作!Kafka 竟然宣布弃用 Java 8

收到请回复

Java kafka 后端 java8

发布两小时,霸榜GitHub!Spring Boot实战文档

Java 编程 程序员 后端 计算机

升级了 Windows 11 正式版,有坑吗?

王磊

2021金九银十Java面试经历:腾讯5面(已拿offer)

Java 编程 程序员 架构 面试

被疫情“带飞”的家庭健身市场,是时候卷起来了

脑极体

Leetcode题目解析:274. H 指数

程序员架构进阶

面试 算法 LeetCode 10月月更

自定义View:如何绘制一个饼图

Changing Lin

10月月更

RUOYI 框架教程 15|若依框架中 Mysql 操作 | 日期处理

Java_若依框架教程

Java 技术 Ruoyi 框架 若依

通关宝典!Java 面试核心知识让你面试过,过,过!

Java 程序员 面试 后端 构架

Java高级、架构师必备!Lucene+ElasticStack入门至项目实战!

Java 架构 面试 程序人生 编程语言

互动视频和5G的相互成就

脑极体

总结出这份学习笔记,帮助朋友成功跳槽!六年阿里工作,苦熬到 P7经验分享!

Java 程序员 架构 后端 工程师

怒肝 Linux 学习路线,这回不难

程序员鱼皮

Linux 编程 后端 开发 java

4年CRUD小职员,五面阿里艰苦经历(定薪45K),回馈一波心得体会

收到请回复

Java 程序员 面试 后端 面经

横空出世!IDEA画图神器来了,比Visio快10倍

收到请回复

Java IDEA idea插件

双非本科猛斩6个offer,秘籍公开!

Java 程序员 架构 面试 后端

面试多次被拒,“两个月”61天,我收到了蚂蚁金服P7级的offer

Java spring 程序员 架构 编程语言

凌晨加班回家路上捡到阿里技术人限产的MySQL高级笔记及面试宝典,从此我的人生像开挂一样!

Java 架构 面试 程序人生 编程语言

飞桨与海光人工智能加速卡DCU系列完成互证,助力国产AI加速 卡人工智能应用创新

百度大脑

人工智能 深度学习 飞桨

TypeScript 中的 Index Signatures

Regan Yue

typescript ReganYue 10月月更

无敌!学透美团老哥的这套微服务进阶学习手册拿个P7还是so easy!

Java 架构 面试 程序人生 编程语言

gitee上提交PR和issue流程和注意事项

Geek_6cdeb6

机器学习 深度学习 git

区块链通证经济和传统经济的区别,如何实现

CECBC

没想到!阿里技术大佬独家收藏的pring全家桶小册,竟被我意外发现!

Java 架构 面试 程序人生 编程语言

一女程序员因薪酬问题离职,rm -f * 删库,瘫痪6个小时,被判9个月

收到请回复

Java 程序员 面试 面经

这么卷吗?大三学生喜获阿里提前批

Java 程序员 架构 后端

RUOYI 框架教程 16|关于若依RuoYi.jar卡顿,僵死,假死,系统无反映解决方案

Java_若依框架教程

技术 Ruoyi 开发 框架 若依

观测云产品更新|新增主机网络性能监测、图表矩形树图、多监测关联查询等功能

观测云

功能更新

区块链通证经济的意义

CECBC

ToB产品如何自传播(上)

石云升

产品经理 产品设计 产品思维 10月月更

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章