NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-05-05 10:505771
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 263.0 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

如何有效进行回顾会议(上)?

敏捷开发

敏捷 回顾会 项目开发

一文读懂如何部署具有外部数据库的高可用 K3s

Rancher

Kubernetes k8s rancher

什么是SpringMVC?工作流程是什么?九大组件有哪些?

程序员啊叶

Java 编程 程序员 架构 java面试

这50道Java面试题看完,想不进大厂都难

王小凡

Java 程序员 面试 面试题 大厂面试

完完整整地看完这个故事,你敢说还不懂Docker?

程序员啊叶

Java 编程 程序员 架构 java面试

蓝海大脑高性能气象大数据平台为气象局掌握风云变幻提供助力

蓝海大脑GPU

TDengine 助力西门子轻量级数字化解决方案

TDengine

数据库 tdengine 时序数据库

基于 MinIO 对象存储保障 Rancher 数据

Rancher

Kubernetes k8s rancher

详解.NET的求复杂类型集合的差集、交集、并集

了不起的程序猿

java 14 java程序员 java编程

语音社交系统——完善有声系统产业链

开源直播系统源码

开源源码 语音直播系统源码 语音直播系统 语音直播系统连麦

融云实时社区解决方案

融云 RongCloud

要想组建敏捷团队,这些方法不可少

敏捷开发

团队管理 敏捷开发 敏捷团队

一些企业数据平台建设的思考

Bright

数据平台 大数据平台

58子站安居,经纪人营销管理平台登录接口加密逆向

梦想橡皮擦

Python 爬虫 7月月更

【函数式编程实战】(十一) CompletableFuture、反应式编程源码解析与实战

小明Java问道之路

CompletableFuture 7月月更 签约计划第三季 反应式编程 Flow API

企业数字化本质

奔向架构师

数据治理 7月月更

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

PingCAP

TiDB

我秃了!唯一索引、普通索引我该选谁?

程序员啊叶

Java 编程 程序员 架构 java面试

你面试十家java开发才能总结出来的面试题(建议收藏)

程序员啊叶

Java 编程 程序员 架构 java面试

详解Kafka分区副本分配的Bug

石臻臻的杂货铺

7月月更 签约计划第三季

牛皮了!阿里面试官终于分享出了2022年最新的java面试题及答案

程序员啊叶

Java 编程 程序员 架构 java面试

围绕新市民金融聚焦差异化产品设计、智能技术提效及素养教育

易观分析

新市民金融 差异化产品设计 素养教育

看了就会的 Rainbond 入门教程

北京好雨科技有限公司

Kubernetes 云原生

AI落地难?灵雀云助力企业快速应用云原生机器学习MLOps

York

人工智能 机器学习 云原生 降本增效 MLOps

面试官:ThreadLocal使用场景有哪些?内存泄露问题如何避免?

程序员啊叶

Java 编程 程序员 架构 java面试

10次面试9次被刷?吃透这500道大厂Java高频面试题后,怒斩offer

程序员啊叶

Java 编程 程序员 架构 java面试

有奖活动分享:使用WordPress搭建一个专属自己的博客后最高可领取iPhone13

云端explorer

Wordpress 博客部署

NFTScan 与 NFTPlay 在 NFT 数据领域达成战略合作

NFT Research

区块链 大数据 NFT 合作 Web3.0

分布式 hdfs-over-ftp 工具实现方案

移动云大数据

数牍 X Rust,那些不得不说的事

Jessica@数牍

联邦学习 隐私计算 数牍科技 rust开发者大会 分布式计算框架

35道MySQL面试必问题图解,这样也太好理解了吧

程序员啊叶

Java 编程 程序员 架构 java面试

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章