武汉的开发者们注意啦!AI技术战略、框架以及最佳实战尽在Azure OpenAI Day 了解详情
写点什么

OpenAI 终于松口,史上最强 NLP 模型 GPT-2 决定部分开源

  • 2019-05-05
  • 本文字数:956 字

    阅读完需:约 3 分钟

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源

被称为“史上最强NLP模型”的 GPT-2 终于迎来了部分开源。


照例先放上 GitHub 地址:https://github.com/openai/gpt-2


还记得 GPT-2 首次亮相的时候,由于 OpenAI 没有将之开源的计划,很快被技术社区声讨,各种说法铺天盖地,讨论的重心从不开源的决定是否正确,转移到模型本身是否被过誉。


不知道是因为受不了来自技术社区的压力,还是模型已经更加完善了,OpenAI 决定通过分阶段开放以及合作伙伴共享两种方式对 GPT-2 模型进行开源。



在 OpenAI 的官方博客上,也有一段附加的文字对这次的开放进行了解释:


首先,阶段性发布会随着时间的推移逐步发布一系列模型。分阶段发布 GPT-2 的目的是给人们时间来评估这些模型的特性,讨论它们的社会影响,并在每个阶段之后评估发布的影响。


作为分阶段发布策略的下一步,OpenAI 表示将发布 GPT-2 的 345M 参数版本。与 117M 版本相比,该模型的性能有所提高,但在生成连贯文本的便捷性方面,它还不及 1.5B 版本。此外,官方认为 345M 版本的误用风险会高于 117M 的版本,但大大低于 1.5B 版本的误用风险。


在做出 345M 版本发行的决定时,OpenAI 也考虑到了一些其他因素,包括:不同模型大小的易用性(由不同用户使用)、不同大小的模型生成的文本质量、文本生成过程中人类的角色等等,官方也明确表示对其中一些变量仍然不确定,并继续欢迎有关如何制定适当的语言模型发布决策的意见。


而合作伙伴共享的版本也是 OpenAI 多次与外部研究人员、技术公司和决策者进行对话的结果。


OpenAI 目前正在与学术机构、非营利组织和行业实验室建立研究伙伴关系,重点是增强社会对 GPT-2 这类大型语言模型的准备。共享 GPT-2 的 762M 和 1.5B 版本,目的也是促进对该语言模型的输出检测、偏差分析和缓解以及误用潜力分析的研究。除了观察 GPT-2 模型对外界的影响,与利益相关者进行对话,进行内部分析,这些研究伙伴关系将是 OpenAI 对更大模型发布决策的关键。


根据官方博客介绍,这次发布还包括了一个包含所有 4 种模型大小的 GPT-2 输出的数据集,以及用于培训 GPT-2 的 WebText 语料库的子集。输出数据集包含大约 250,000 个模型/超参数对样本,这足以帮助更多的研究人员对上述三个主题进行定量和定性分析。除了这些数据集,OpenAI 还对模型的一些与检测相关的属性进行了基线分析,目的是希望其他人能够在此基础上快速构建模型。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-05-05 10:505756
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 261.0 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

开始报名!龙蜥社区走进 Arm MeetUp 议程硬核剧透来了

OpenAnolis小助手

开源 操作系统 arm Meetup 龙蜥社区

流量治理的基石——基于字节码增强的全链路流量标签透传

华为云开源

微服务 微服务架构 字节码

AI带来的新创浪潮

测吧(北京)科技有限公司

测试

软件测试 | 奇安信秋招面试题1

测吧(北京)科技有限公司

测试

Vue3中的Ref与Reactive:深入理解响应式编程

互联网工科生

前端框架 Vue 3

真香!为什么设计行业流行部署云桌面?

青椒云云电脑

云桌面

大厂旗下的APP们成为自研大模型的“磨刀石”|TE洞察

TE智库

人工智能 BAT 大模型

人工智能 | ChatGPT账号注册

测吧(北京)科技有限公司

测试

AI在生活中的惊人应用

测吧(北京)科技有限公司

测试

定义现代化实时数据仓库,SelectDB 全新产品形态全面发布

SelectDB

数据库 大数据 数据湖 数据分析 云数据库

C4D在影视动画制作中的局限性

Finovy Cloud

C4D

2023英特尔on技术创新大会:英特尔研究院展示多项技术“魔法”

E科讯

软件测试 | 奇安信秋招面试题3

测吧(北京)科技有限公司

测试

bsc链一键发币平台哪个好?PandaTool最受欢迎

加密先生

软件测试 | 奇安信秋招面试题2

测吧(北京)科技有限公司

测试

代理价格监控和分布式价格监控有什么不同点?

巨量HTTP

http代理 分布式代理

你眼中的程序员 vs 程序员眼中的自己,是时候打破刻板印象了丨KubeCon 主题活动

阿里巴巴云原生

阿里云 容器 云原生 AIGC

人工智能:走向智能化生活

测吧(北京)科技有限公司

测试

Java虚拟线程简介

FunTester

探索全球 AI 产品市场:50 个国内外导航网站助力推广

出海的猹

AI 导航网站 出海

英特尔研究院副总裁、英特尔中国研究院院长宋继强:英特尔技术为全行业带来卓越贡献

E科讯

2024成都电子展|成都国际电子信息展览会

AIOTE智博会

电子信息展 成都电子展 电子信息博览会

RTC才是物联网企业的杀手锏!

X2Rtc

音视频 物联网 IoT RTC

【聚梦想 创非凡】2023荣耀开发者沙龙 ● 广州站 精彩回顾

荣耀开发者服务平台

互联网 用户增长 云服务 生态合作 行业经验

【架构篇】Supabase的Postgrest组件架构介绍

张文平

数据库 postgresql 缓存 多表联查 Postgrest

文心一言 VS 讯飞星火 VS chatgpt (101)-- 算法导论9.3 7题

福大大架构师每日一题

福大大架构师每日一题

极光笔记 | 聊一聊推送系统中事件驱动架构的应用

极光JIGUANG

聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname

明哥的IT随笔

hdfs TCP/IP

深度学习之“线下标注”

矩视智能

深度学习 机器视觉

未来PC将是云电脑? 算力优势成为关键

青椒云云电脑

云电脑

混合项目管理:您需要知道的一切,从定义到实践

PingCode

项目管理 看板 敏捷管理 混合项目管理

OpenAI终于松口,史上最强NLP模型GPT-2决定部分开源_AI&大模型_陈思_InfoQ精选文章