Meta AI全面开放1750亿参数大模型：首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队



 写点什么

Meta AI全面开放1750亿参数大模型：首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数，与 OpenAI 的 GPT-3 等商业语言模型相当。近日，Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。

过去几年以来，大规模语言模型，也就是那些包含 1000 亿以上参数的自然语言处理（NLP）系统，已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练，已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。

虽然此前公众也可以通过付费 API 与一部分此类模型进行交互，但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解，更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。

根据 Meta AI 做出的开放科学承诺，我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数，由公开数据集训练而成的语言模型，希望帮助更多社群参与并理解这项基础性技术成果。

这也是大规模语言技术系统在历史上第一次毫无保留，把预训练模型、训练代码以及使用代码全部展现在公众面前。

为了保持模型完整性并防止滥用，我们将以非商业许可的形式发布这套模型，希望 OPT-175B 仅被用于研究用途。具体来讲，这套模型的访问权限将针对学术研究者全面开放，包括隶属于政府、民间社会和学界组织的人员，以及全球各地的工业研究实验室。

我们坚信，由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区，一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针，进而约束以大规模语言模型为中心的更多下游具体应用。

AI 社区成员有必要访问这些模型，开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布，我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B

遵循 Partnership on AI 为研究人员制定的发布指南，再结合 NIST 在 2022 年 3 月提出的治理指南概述（第 3.4 节），我们决定发布 OPT-175B 开发过程中的所有笔记和记录，包括详尽介绍日常训练过程的完整日志。

如此一来，其他研究者就能轻松在我们的工作基础之上再接再厉，做出意义深远的其他延拓。此外，结合这些细节，大家还能理解 OPT-175B 模型的整体训练计算量；以及在底层基础设施或训练过程出现大规模稳定性波动时，需要投入多少人力进行调整。

除了 OPT-175B 本体之外，我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库，希望能提高这些模型的可访问性。为了帮助大家做好研究，我们还针对可量化的潜在危害提出一套通用性的衡量指标。

此外，我们也全面发布一套体量更小的基准模型，与 OPT-175B 本体采用相同的训练数据集和参数设置，可供研究人员单独探索模型规模差异造成的实际影响。

这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种，后续我们还将发布 660 亿参数的版本。

负责任地计算

AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹，但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下，初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。

我们在开发 OPT-175B 时也充分考虑到能源效率因素，最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行（FSDP）API 与英伟达的张量并行抽象结合起来，共同实现了这一壮举。

我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率，这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。

通过代码库，我们共享了这些宝贵的 175B 模型训练基准，希望能帮助更多研究人员减少整体碳足迹，也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展

为了推进 AI 研究工作，整个学界必须与前沿模型开展广泛合作，在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划（例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛）一样，Meta AI 认为只有这样的跨组织合作，才能帮助我们一步步走近真正负责任的 AI 开发方法。

尽管大型语言模型领域带来了一系列令人兴奋的发展成果，但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型，研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之，检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。

我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点，帮助社区集群设计出负责任的发布策略，最终给大规模语言模型的开发带来前所未有的透明度与开放性。

点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。

各预训练模型均遵循OPT-175B许可协议。

原文链接：

https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

发布

暂无评论

创作场景

Meta AI 全面开放 1750 亿参数大模型：首次毫无保留公开训练代码及使用代码、日志记录

以负责任的态度发布 OPT-175B

负责任地计算

通过开放合作推动研究发展

评论

压缩上传的图片并返回图片路径

【LeetCode】层数最深叶子节点的和Java题解

今天4点，开发者关心的SysOM 操作系统运维系列直播又来了！| 第 42 期

面试突击：SpringBoot 有几种读取配置文件的方法？

HashMap为什么线程不安全？

云原生（十九） | Kubernetes篇之Kubernetes（k8s）网络

计算机网络（一、概述）

Go-Excelize API源码阅读（十二）——SetSheetVisible(sheet string, visible bool)

java程序员培训后如何在一线城市找到工作

前端程序员培训学习未来的薪资怎么样

学习大数据编程有前途吗

元宇宙系统源码——测试方案

解放双手！根据代码自动生成时序图，这款IDEA插件真香

StarRocks 成都见！企业如何打造极速统一的数据分析新范式，助力业务全方位升级

一加是oppo旗下的品牌吗？

React Native框架与小程序混编的方案

CAT认证敏捷团队教练工作坊 (Coaching Agile Teams) | 9月24日开课

Java性能优化的七个方向

转行大数据培训学习应该注意什么？

浏览器、负载均衡、进程内部层...那些你需要掌握的多级缓存

都说MySQL单表不要超过2000W行，这是真的吗？

什么是对象存储？3000字给你整明明白白！

要相信自己可以解决问题

新零售进阶｜从“人-货-场”到“北极星指标”

京东商品获取优惠券API接口-京东优惠券如何获取-京东联盟API接口

有零有食携手阿里云&瓴羊共建企业数字化解决方案

前端编程培训学习好就业吗

数据构造那些事儿

创作场景

Meta AI 全面开放 1750 亿参数大模型：首次毫无保留公开训练代码及使用代码、日志记录

以负责任的态度发布 OPT-175B

负责任地计算

通过开放合作推动研究发展

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载