AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


2019-05-05 10:506340
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 294.7 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

用友Fast by BIP助力公交企业降本增效,数智运营!

用友BIP

财政部办公厅发布公立医院内控建设征求意见函 信息化成为内控建设重要抓手

用友BIP

数智医疗

如何使用GaussDB(DWS)的本地临时表进行数据处理

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 本地临时表

水务行业管理与服务数智化升级,用友Fast by BIP在行!

用友BIP

Fast by BIP 水务行业

TDengine 资深研发整理:基于 SpringBoot 多语言实现 API 返回消息国际化

TDengine

时序数据库 ​TDengine

火山引擎ByteHouse:双十一即将到来,如何用数据分析提升电商平台销售转化?

字节跳动数据平台

大数据 数据仓库 云原生 电商

Opencv入门篇:简介与基本使用 | 京东物流技术团队

京东科技开发者

Python OpenCV 计算机视觉 企业号10月PK榜

AI大模型下一步怎么走?百度携AI原生应用抢先作答

陈橘又青

文心一言

浅谈东数西算战略中,发挥算网大脑作用的4个关键点

鲸品堂

东数西算 算力网络 企业号10月PK榜

DHorse v1.4.2 发布,基于 k8s 的发布平台

tiandizhiguai

sip中继的内容介绍

cts喜友科技

SIP sip中继

记录TritonServer部署多模型到多GPU踩坑 | 京东云技术团队

京东科技开发者

人工智能 gpu 企业号10月PK榜

叮!你有一份1024程序员节的通关秘籍待查收!

飞桨PaddlePaddle

1024程序员节

记一次MySQL5初始化被kill的问题排查 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号10月PK榜

驱动数字化转型,Doris Summit Asia 2023 智慧金融与政企论坛精彩预告!

SelectDB

数据库 大数据 数据分析 实时数仓 apache doris

图文详解!带你认识 ancert:硬件兼容性标准实现工具!| 龙蜥技术

OpenAnolis小助手

开源 操作系统 龙蜥社区 Ancert 硬件兼容性

李彦宏,AI原生应用的秋收时刻

脑极体

AI

Vulkan 同步

江湖修行

android OpenGL ES 渲染 移动端开发 vulkan

太强了!三种方案优化 2000w 数据大表!

互联网工科生

数据库

AI原生应用速通指南

百度Geek说

App 百度文库 AIGC 企业号10月PK榜

博睿数据获评2023中国智能运维领域“最具商业合作价值企业”

博睿数据

可观测平台 智能运维AIOps

如何将电脑上的“小电影”隐藏为一张图片?这波操作绝了!!

冰河

程序员 图片 视频创作 知识分享 小视频

解析设计模式与设计原则:构建可维护性和可扩展性代码的重要性

华为云开发者联盟

开发 华为云 华为云开发者联盟

设计模式之策略模式:让你的代码灵活应对不同的算法 | 京东云技术团队

京东科技开发者

算法 设计模式 策略模式 企业号10月PK榜

Bonree ONE 秋季产品发布会上新功能提前剧透!

博睿数据

可观测性 智能运维

塑造未来经济的游戏规则改变者:去中心化金融交易所的发展

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

消灭指标二义性!提效30%的指标管理如何炼成?

奇点云

奇点云 数据云操作系统 指标标签

浅谈分布式事务及解决方案 | 京东物流技术团队

京东科技开发者

数据库 分布式 分布式事务 事务 企业号10月PK榜

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章