写点什么

Meta AI 全面开放 1750 亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

  • 2022-05-05
  • 本文字数:1995 字

    阅读完需:约 7 分钟

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录

Meta AI 的 OPT-175B 具有 1750 亿个参数,与 OpenAI 的 GPT-3 等商业语言模型相当。近日,Meta AI 宣布将全面开放 OPT-175B。这意味着大规模语言模型迎来大众化。


过去几年以来,大规模语言模型,也就是那些包含 1000 亿以上参数的自然语言处理(NLP)系统,已经改变了整个 NLP 乃至 AI 研究风向。这些模型接受过海量文本素材的训练,已经在生成创意文本、解决基础数学试题、回答阅读理解问题等方面表现出了令人惊讶的能力。


虽然此前公众也可以通过付费 API 与一部分此类模型进行交互,但其完整的研究与访问权限仍只属于少数资源丰富的实验室。这种访问层面的限制不仅大大阻碍了研究人员对这类大型语言模型及其原理的理解,更拉高了提升模型稳健性、缓解偏见/“有毒”观念等已知问题的参与门槛。



根据 Meta AI 做出的开放科学承诺,我们决意共享 Open Pretrained Transformer (OPT-175B)模型。这是一套包含 1750 亿个参数,由公开数据集训练而成的语言模型,希望帮助更多社群参与并理解这项基础性技术成果。


这也是大规模语言技术系统在历史上第一次毫无保留,把预训练模型、训练代码以及使用代码全部展现在公众面前。


为了保持模型完整性并防止滥用,我们将以非商业许可的形式发布这套模型,希望 OPT-175B 仅被用于研究用途具体来讲,这套模型的访问权限将针对学术研究者全面开放,包括隶属于政府、民间社会和学界组织的人员,以及全球各地的工业研究实验室。


我们坚信,由学界研究者、民间社会、政策制定者及产业界共同构成的整个 AI 社区,一直在努力打造负责任的 AI 解决方案。这一基本思路也应成为大型语言模型的指导方针,进而约束以大规模语言模型为中心的更多下游具体应用。


AI 社区成员有必要访问这些模型,开展可重复研究并共同推动整个领域向前发展。随着 OPT-175B 与小规模基准的发布,我们希望能为这一技术伦理难题的解决引入新的多样性思路。

以负责任的态度发布 OPT-175B


遵循 Partnership on AI 为研究人员制定的发布指南,再结合 NIST 在 2022 年 3 月提出的治理指南概述(第 3.4 节),我们决定发布 OPT-175B 开发过程中的所有笔记和记录,包括详尽介绍日常训练过程的完整日志


如此一来,其他研究者就能轻松在我们的工作基础之上再接再厉,做出意义深远的其他延拓。此外,结合这些细节,大家还能理解 OPT-175B 模型的整体训练计算量;以及在底层基础设施或训练过程出现大规模稳定性波动时,需要投入多少人力进行调整。


除了 OPT-175B 本体之外,我们还发布了可在 16 个英伟达 V100 GPU 上运行的模型训练和部署代码库,希望能提高这些模型的可访问性。为了帮助大家做好研究,我们还针对可量化的潜在危害提出一套通用性的衡量指标。


此外,我们也全面发布一套体量更小的基准模型,与 OPT-175B 本体采用相同的训练数据集和参数设置,可供研究人员单独探索模型规模差异造成的实际影响。


这些小规模模型的参数量分为 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿几种,后续我们还将发布 660 亿参数的版本。

负责任地计算


AI 研究的最新发展消耗掉了大量算力。虽然行业实验室已经在报告各类模型产生的碳足迹,但其中大多并不包括实验研发阶段的相关计算成本。在某些情况下,初期阶段耗费的资源可能要比训练最终模型还要高出一个数量级。


我们在开发 OPT-175B 时也充分考虑到能源效率因素,最终以仅为 GPT-3 七分之一的碳排放量成功完成了模型训练。我们在 Megatron-LM 中将 Meta 的开源全分片数据并行(FSDP)API 与英伟达的张量并行抽象结合起来,共同实现了这一壮举。


我们在英伟达 80 GB 版本的 A100 GPU 上实现了约 147 TFLOP/s/GPU 的超高利用率,这一结果比英伟达研究人员在同等硬件上公布的数据高出约 17%。


通过代码库,我们共享了这些宝贵的 175B 模型训练基准,希望能帮助更多研究人员减少整体碳足迹,也希望能以这种统一的标准衡量 AI 领域的最新成果与前沿进展。

通过开放合作推动研究发展


为了推进 AI 研究工作,整个学界必须与前沿模型开展广泛合作,在快速探索模型潜力的同时发现其中的“软肋”。与我们之前的开放科学计划(例如图像相似性挑战赛、Deepfake 检测挑战赛和 Hateful Mems 挑战赛)一样,Meta AI 认为只有这样的跨组织合作,才能帮助我们一步步走近真正负责任的 AI 开发方法。


尽管大型语言模型领域带来了一系列令人兴奋的发展成果,但这些模型本身的局限性和风险因素仍未得到有效把握。如果无法直接访问这些模型,研究人员也很难为其规划出可行的伤害检测与缓解策略。换言之,检测与缓解能力将完全被那些拥有足够财力的研究者所掌握。


我们希望 OPT-175B 的开放能为大型语言模型的前沿探索引入更多观点,帮助社区集群设计出负责任的发布策略,最终给大规模语言模型的开发带来前所未有的透明度与开放性。


点击此处可访问开源代码与小型预训练模型;

点击此处申请访问 OPT-175B 模型;

点击此处可阅读论文原文。


各预训练模型均遵循OPT-175B许可协议


原文链接:


https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/

2022-05-05 14:219645
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 567.8 次阅读, 收获喜欢 1978 次。

关注

评论

发布
暂无评论
发现更多内容

四个上海等保小知识汇总-行云管家

行云管家

等保 等级保护 等保测评 上海

MobTech 秒验|本机号码一键登录

MobTech袤博科技

Java基础_面试题

三十而立

火山引擎DataTester推出可视化数据集成方案

字节跳动数据平台

数据集成 ab测试 A/B 测试 可视化开发 企业号 3 月 PK 榜

警惕看不见的重试机制:为什么使用RPC必须考虑幂等性

IPv6是什么意思?哪款堡垒机支持IPv6资产纳管?

行云管家

资产管理 堡垒机 ipv6

为什么 MySQL 不推荐使用 join?

Java你猿哥

Java MySQL sql 后端 ssm

vue面试题八股文简答大全 让你更加轻松的回答面试官的vue面试题

肥晨

Vue 面试题 金三银四 超全前端面试题

阿里P7架构师的独家分享——SpringCloud 微服务实战笔记

Java你猿哥

Java 架构 微服务 Spring Boot 面经

mac电脑能恢复安卓手机丢失的数据吗?

Rose

mac电脑 安卓数据恢复

数仓安全测试之SSRF漏洞

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

玩转 ChatGPT+极狐GitLab|分分钟丝滑迁移Jenkins到极狐GitLab CI

极狐GitLab

ci DevOps jenkins CI/CD 极狐GitLab

DaVinci Resolve Studio 18(达芬奇调色剪辑)中文版

Rose

达芬奇18破解版

Mac版cad2024发布 AutoCAD 2024 注册机

Rose

Mac软件 cad cad2024激活版 Autodesk AutoCAD

OceanBase 信息技术服务管理体系通过 ISO20000 认证和 ITSS 认证

OceanBase 数据库

数据库 oceanbase

工作10年,面试超过300人想进阿里的同学,总结出的java面试69题

三十而立

Java java面试

裸辞跳槽底气!字节在职大佬“Java面试总汇2023”大厂都在考

Java你猿哥

Java 面试 ssm 面经 Java工程师

龙蜥白皮书精选:面向异构计算的加速器 SDK

OpenAnolis小助手

开源 sdk 异构计算 加速器 龙蜥白皮书

开源即巅峰!《Java程序性能优化实战》GitHub三小时标星已超34k

Java 性能优化 性能调优

Java开发新手必读:PO、VO、DAO、BO、DTO、POJO,区别在哪儿?

Java你猿哥

Java 后端 ssm Java工程师 Java基础知识点

Vue+Spring-Security前后端分离登录实现

聊聊不太符合常规思维的动态规划算法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

苹果发布macOS Ventura 13.3正式版更新

Rose

mac系统 苹果最新系统 macOS Ventura 13.3

MobTech 秒验|防控羊毛党

MobTech袤博科技

MobTech MobLink|场景分享的原理

MobTech袤博科技

无人机巡检场景小目标检测与量化加速部署方案详解

飞桨PaddlePaddle

人工智能 无人机 目标检测 飞桨 PaddlePaddle

SQL Chat - 基于 ChatGPT 的对话式交互 SQL 客户端

Bytebase

sql database ChatGPT

视频下载出来为网页格式?如何将视频转换为mp4格式?

Rose

视频格式转换 Mac视频格式转换 视频下载出来为网页

Github上获赞59.8K的面试神技—1658页《Java面试突击核心讲》

三十而立

Meta AI全面开放1750亿参数大模型:首次毫无保留公开训练代码及使用代码、日志记录_AI&大模型_Meta AI 团队_InfoQ精选文章