写点什么

Meta AI 全面开放 1750 亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

  • 2022-05-05
  • 本文字数:1995 字

    阅读完需:约 7 分钟

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数,与 OpenAI 的 GPT-3 等商业语言模型相当。近日,Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。


过去几年以来,大规模语言模型,也就是那些包含 1000 亿以上参数的自然语言处理(NLP)系统,已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练,已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。


虽然此前公众也可以通过付费 API 与一部分此类模型进行交互,但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解,更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。



根据 Meta AI 做出的开放科学承诺,我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数,由公开数据集训练而成的语言模型,希望帮助更多社群参与并理解这项基础性技术成果。


这也是大规模语言技术系统在历史上第一次毫无保留,把预训练模型、训练代码以及使用代码全部展现在公众面前。


为了保持模型完整性并防止滥用,我们将以非商业许可的形式发布这套模型,希望 OPT-175B 仅被用于研究用途具体来讲,这套模型的访问权限将针对学术研究者全面开放,包括隶属于政府、民间社会和学界组织的人员,以及全球各地的工业研究实验室。


我们坚信,由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区,一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针,进而约束以大规模语言模型为中心的更多下游具体应用。


AI 社区成员有必要访问这些模型,开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布,我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B


遵循 Partnership on AI 为研究人员制定的发布指南,再结合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 节),我们决定发布 OPT-175B 开发过程中的所有笔记和记录,包括详尽介绍日常训练过程的完整日志


如此一来,其他研究者就能轻松在我们的工作基础之上再接再厉,做出意义深远的其他延拓。此外,结合这些细节,大家还能理解 OPT-175B 模型的整体训练计算量;以及在底层基础设施或训练过程出现大规模稳定性波动时,需要投入多少人力进行调整。


除了 OPT-175B 本体之外,我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库,希望能提高这些模型的可访问性。为了帮助大家做好研究,我们还针对可量化的潜在危害提出一套通用性的衡量指标。


此外,我们也全面发布一套体量更小的基准模型,与 OPT-175B 本体采用相同的训练数据集和参数设置,可供研究人员单独探索模型规模差异造成的实际影响。


这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种,后续我们还将发布 660 亿参数的版本。

负责任地计算


AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹,但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下,初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。


我们在开发 OPT-175B 时也充分考虑到能源效率因素,最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行(FSDP)API 与英伟达的张量并行抽象结合起来,共同实现了这一壮举。


我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率,这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。


通过代码库,我们共享了这些宝贵的 175B 模型训练基准,希望能帮助更多研究人员减少整体碳足迹,也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展


为了推进 AI 研究工作,整个学界必须与前沿模型开展广泛合作,在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划(例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛)一样,Meta AI 认为只有这样的跨组织合作,才能帮助我们一步步走近真正负责任的 AI 开发方法。


尽管大型语言模型领域带来了一系列令人兴奋的发展成果,但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型,研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之,检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。


我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点,帮助社区集群设计出负责任的发布策略,最终给大规模语言模型的开发带来前所未有的透明度与开放性。


点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。


各预训练模型均遵循OPT-175B许可协议


原文链接:


https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

2022-05-05 14:219695
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 571.6 次阅读, 收获喜欢 1979 次。

关注

评论

发布
暂无评论
发现更多内容

手把手教你在CentOS环境安装Docker

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

流计算中的死锁

Damon

6月月更

数据库每日一题---第16天:计算特殊奖金

知心宝贝

数据库 云计算 前端 后端 6月月更

开源Star10K+数据库工具Beekeeper上手体验,免费够酷值得拥有!

MegaQi

数据库管理工具 6月月更 #开源项目体验

JavaScript基础语法知识遨游记

未见花闻

6月月更

SDN系统方法 | 7. 叶棘网络

俞凡

架构 网络 sdn SDN系统方法

Linux开发_Linux下进程编程

DS小龙哥

6月月更

Vue-13-Vif和Vshow的区别

Python研究所

6月月更

模拟红绿灯来看GetX的定向刷新

岛上码农

flutter ios 前端 安卓 6月月更

【LeetCode】乘积小于 K 的子数组Java题解

Albert

LeetCode 6月月更

HashSet与WeakHashMap的理解

源字节1号

Docker进阶(一):docker -v目录挂载

No Silver Bullet

Docker 6月月更

vue动态路由

小恺

6月月更

FastCorrect:语音识别快速纠错模型丨RTC Dev Meetup

声网

语音识别 RTC Dev Meetup

成为架构师需要点亮哪些知识树

奔向架构师

数据仓库 架构师 6月月更

Java—JVM II

武师叔

6月月更

办事利器推荐 | 社区征文

工程师日月

工具软件 6月月更 初夏征文

彻底搞懂 select/poll/epoll,就这篇了!

C++后台开发

网络编程 linux开发 epoll select C++开发

创建视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

NodeJS 读写文件 🎠

德育处主任

node.js 6月月更

flutter系列之:按比例缩放的AspectRatio和FractionallySizedBox

程序那些事

flutter 程序那些事 6月月更

稳了github star突破9k即时通讯IM开源项目OpenIM版本发布-生产环境重点关注

Geek_1ef48b

市场冷空气来袭,SeekTiger如何逆流而上?

鳄鱼视界

使用统计数据消除生活中的无谓

宇宙之一粟

贝叶斯公式 6月月更

什么是 IPv6?IPv6有哪些优势?

wljslmz

ipv6 IP地址 网络技术 6月月更

统一返回结果

卢卡多多

返回值 6月月更

颠覆Web2 社交媒体,Liberty 计划在波卡上找到了归宿

One Block Community

区块链 科技

Zookeeper入门基础

No Silver Bullet

zookeeper 6月月更

走近分布式缓存Memcached

No Silver Bullet

memcached 分布式缓存 6月月更

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队_InfoQ精选文章