写点什么

Meta AI 全面开放 1750 亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

  • 2022-05-05
  • 本文字数:1995 字

    阅读完需:约 7 分钟

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数,与 OpenAI 的 GPT-3 等商业语言模型相当。近日,Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。


过去几年以来,大规模语言模型,也就是那些包含 1000 亿以上参数的自然语言处理(NLP)系统,已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练,已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。


虽然此前公众也可以通过付费 API 与一部分此类模型进行交互,但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解,更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。



根据 Meta AI 做出的开放科学承诺,我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数,由公开数据集训练而成的语言模型,希望帮助更多社群参与并理解这项基础性技术成果。


这也是大规模语言技术系统在历史上第一次毫无保留,把预训练模型、训练代码以及使用代码全部展现在公众面前。


为了保持模型完整性并防止滥用,我们将以非商业许可的形式发布这套模型,希望 OPT-175B 仅被用于研究用途具体来讲,这套模型的访问权限将针对学术研究者全面开放,包括隶属于政府、民间社会和学界组织的人员,以及全球各地的工业研究实验室。


我们坚信,由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区,一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针,进而约束以大规模语言模型为中心的更多下游具体应用。


AI 社区成员有必要访问这些模型,开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布,我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B


遵循 Partnership on AI 为研究人员制定的发布指南,再结合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 节),我们决定发布 OPT-175B 开发过程中的所有笔记和记录,包括详尽介绍日常训练过程的完整日志


如此一来,其他研究者就能轻松在我们的工作基础之上再接再厉,做出意义深远的其他延拓。此外,结合这些细节,大家还能理解 OPT-175B 模型的整体训练计算量;以及在底层基础设施或训练过程出现大规模稳定性波动时,需要投入多少人力进行调整。


除了 OPT-175B 本体之外,我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库,希望能提高这些模型的可访问性。为了帮助大家做好研究,我们还针对可量化的潜在危害提出一套通用性的衡量指标。


此外,我们也全面发布一套体量更小的基准模型,与 OPT-175B 本体采用相同的训练数据集和参数设置,可供研究人员单独探索模型规模差异造成的实际影响。


这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种,后续我们还将发布 660 亿参数的版本。

负责任地计算


AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹,但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下,初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。


我们在开发 OPT-175B 时也充分考虑到能源效率因素,最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行(FSDP)API 与英伟达的张量并行抽象结合起来,共同实现了这一壮举。


我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率,这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。


通过代码库,我们共享了这些宝贵的 175B 模型训练基准,希望能帮助更多研究人员减少整体碳足迹,也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展


为了推进 AI 研究工作,整个学界必须与前沿模型开展广泛合作,在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划(例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛)一样,Meta AI 认为只有这样的跨组织合作,才能帮助我们一步步走近真正负责任的 AI 开发方法。


尽管大型语言模型领域带来了一系列令人兴奋的发展成果,但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型,研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之,检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。


我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点,帮助社区集群设计出负责任的发布策略,最终给大规模语言模型的开发带来前所未有的透明度与开放性。


点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。


各预训练模型均遵循OPT-175B许可协议


原文链接:


https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-05-05 14:217203
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.5 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

合约量化机器人系统开发|合约量化机器人软件APP开发

系统开发

如何利用ipad随时随地开发代码

程序员石磊

ipad 编程 远程

Rust从0到1-枚举-match控制流

rust 枚举 match

数字货币自动交易机器人APP开发|数字货币自动交易机器人软件系统开发

系统开发

【详解文件IO系列】讲讲 MQ 消息中间件 (Kafka,RocketMQ等)与 MMAP、PageCache 的故事

Linux服务器开发

网络编程 Linux服务器开发 底层实现原理 网络io C++后端开发

从能耗大户“变身”智能绿色办公,只需一步到位!

IoT云工坊

物联网 API sdk 办公空间 智能转型

合约跟单交易系统开发量化策略

薇電13242772558

数字货币

web简易视频聊天室+媒体流插入

anyRTC开发者

大前端 音视频 WebRTC RTC

Linux df 命令

一个大红包

linux命令 4月日更

量化合约机器人APP开发|量化合约机器人软件系统开发

系统开发

【LeetCode】删除排序链表中的重复元素Java题解

Albert

算法 LeetCode 4月日更

1分钟get什么是训练数据

澳鹏Appen

人工智能 机器学习 大数据 数据集

vue2的$refs在vue3组合式API中的替代方法

devpoint

Vue3 $refs vue2 this.$refs

我们真的可以使世界成为无密码的地方吗?

龙归科技

网络 安全性

5分钟教你学会GaussDB数据分布策略设计

华为云开发者联盟

数据库 分布式数据库 GaussDB GaussDB(for openGauss) 数据分布

Kafka源码阅读笔记(1)

InfoQ_Springup

kafka

十大经典系统架构设计面试题

程序员石磊

架构 面试 架构设计

11 个非常实用的 Python 和 Shell 拿来就用脚本实例!

JackTian

Python 程序员 Shell linux运维 脚本语言

13年Java开发经验精华总结!29大核心知识模块,带你直达架构师!

Java架构追梦

Java 阿里巴巴 架构 全栈知识点

合约量化交易机器人系统开发|合约量化交易机器人APP软件开发

与同事组队,用 3s 把工作节点打通,建立信赖与协作关系。

叶小鍵

这份阿里P8大佬手写的 “Java核心面试精选” 疯传阿里内网

码农之家

Java 编程 程序员 互联网 面试

微擎的日志文件保存在哪里?如何查看。

微擎应用商城

深入浅出带你掌握线程、多线程和线程池

华为云开发者联盟

Java 线程 多线程 线程池 操作系统

百度联合清华,全球首个十亿像素数据集来了!

百度大脑

人工智能 百度

Google Analytics

曦语

数据分析

量化合约交易机器人系统开发|量化合约交易机器人APP软件开发

系统开发

翻译:《实用的Python编程》09_01_Packages

codists

Python

MySQL性能监控与调优

Sakura

4月日更

HTTPS双向认证

上海派拉基础研发

https HTTP ssl SSL 连接

浅谈BSS3.0产品“守成”之策上 • 架构提升篇

鲸品堂

架构 运维 性能

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队_InfoQ精选文章