写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


2019-05-05 10:506435
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 298.0 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

财经违规自媒体集体扑街,必须打击违规自媒体账号

石头IT视角

观测云品牌正式亮相,携手中国信通院共推国内可观测性概念与技术发展!

观测云

开源应用中心|这款小而强大的开源博客程序,简直让人爱不释手!

开源

【OpenIM原创】IM服务端docker、源码、集群部署 非常实用

OpenIM

区块链是如何运作的、是如何防止被篡改的?

CECBC

集齐海外主流云平台,EMQ X Cloud 正式支持 Google Cloud Platform 部署

EMQ映云科技

IoT Google Cloud AIOT 云 原生云 CTO

Alibaba iOS 工程架构腐化治理实践

阿里巴巴终端技术

ios 研发效能 客户端 架构治理

Javacv 音视频小工具 - 下载抖音视频

声网

Java 音视频 ffmpeg javacv

坚持客户第一!

鉴释

产品研发 静态代码分析

计算机操作系统学习笔记 | 进程与程序

Regan Yue

操作系统 9月日更

2021智博会全国区块链大赛暨首届“星火杯”区块链应用大赛正式启动

云计算,

北鲲云SaaS平台为生物制药研发进程带来“加速度”

北鲲云

Android如何用代码执行shell命令

Changing Lin

9月日更

使用分布式锁的正确姿势

张大彪

分布式锁

40 个 SpringBoot 常用注解:让生产力爆表

Java 面试 框架 Spring Boot 2

让全链路压测变得更简单!Takin2.0重磅来袭!

TakinTalks稳定性社区

Alibaba 80k Star《Java面试突击手册》(全彩版)开源

Java 程序员 架构 面试 计算机

重磅发布!百度飞桨获2021全球智博会产品金奖

百度大脑

人工智能

ONNX 浅析:如何加速深度学习算法工程化?

拍乐云Pano

人工智能 深度学习 音视频

【IM开源推荐】前微信技术专家打造的开源的即时通讯组件OpenIM

OpenIM

自动化驱动的高可用网络:爱奇艺B2网络流量自动调度系统建设实践

爱奇艺技术产品团队

流量

WeTest21年焕新钜惠活动福利你领到了吗?

WeTest

软件测试工程师应该怎样规划自己

程序员阿沐

程序员 职业规划 软件测试 自动化测试 经验分享

围绕低代码开发存在的三个误解

低代码小观

程序员 低代码 企业管理 低代码开发平台 应用开发

相约重庆,2021 DEMO CHINA创新中国峰会倒计时六天

创业邦

2021年8月券商App行情刷新及交易体验评测报告

博睿数据

【Vuex 源码学习】第五篇 - Vuex 中 Mutations 和 Actions 的实现

Brave

源码 vuex 9月日更

花了3个小时解决了和异地女朋友一起看电影的需求(内附源码)

ZEGO即构

android 音视频 一起看电影

WorkPlus即时通讯软件,满足政企局域网办公需求

BeeWorks

博睿数据赋能数字化转型,用户体验升级需要有“温度”的技术

博睿数据

到底什么是区块链?是咋样的运营原理

CECBC

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章