写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:365160

评论

发布
暂无评论
发现更多内容

利用代理ip爬取Alibaba海外版数据

Yan-英杰

Python 后端

地平线与英伟达工具链 PTQ 工具功能参数对比与实操

地平线开发者

自动驾驶 算法

TiDB 社区第四届 1024 程序员心愿节来啦!没有 Bug ,只有 Luck!参与留言活动,许愿你想要的 TiDB 产品功能、周边、TiDB 课程 & 考证优惠,一起庆祝 1024 吧!

TiDB 社区干货传送门

TiDB SEMI JION(半连接)优化实践

TiDB 社区干货传送门

实践案例

构建行业应用生态:云原生应用市场简化企业软件安装

北京好雨科技有限公司

云原生 企业级应用 行业生态 应用市场

如何使用OpenAI文本Embedding模型构建AI系统

Zilliz

非结构化数据 Milvus zilliz cloud Embedding模型

一文探索RareShop:首个面向消费者的RWA NFT商品发售平台

NFT Research

NFT\ nft工具

TDengine 3.3.3.0 版本上线:优化监控、增强 MongoDB 支持

TDengine

数据库 tdengine

TiDB 关联子查询及半连接的优化实践

TiDB 社区干货传送门

性能调优 实践案例

Milvus 到 TiDB 向量迁移实践

TiDB 社区干货传送门

迁移 实践案例 TiDB Cloud TiDB Vector

轻帆云移动端智能语音提单:一键触达,智能工单新体验,助力高效运营

云智慧AIOps社区

ITSM软件 IT服务管理 工单管理 智能工单

分布式数据库安全可靠测评名录之平凯数据库(TiDB企业版)

TiDB 社区干货传送门

数据库架构设计

TiDB 新版本:更稳、更快、更好的数据库体验

TiDB 社区干货传送门

版本升级 新版本/特性解读

【一文读懂LangGraph、AutoGen、Swarm】大模型时代AI智能体框架核心技术原理

小奇同学

智能体 多智能体 LangGraph AutoGen Swarm

深圳计算科学研究院YashanDB数据库系统斩获“鼎新杯”二等奖

极客天地

格睿科技完成数百万美元融资,助力可观测和物联网领域高效数据价值挖掘

Greptime 格睿科技

数据库 融资

PingCAP 与百胜中国联合实验室发布阶段性成果,以技术创新引领餐饮行业数字化转型

先锋IT

ABAQUS软件包括哪些模块?ABAQUS介绍

思茂信息

功能 abaqus 有限元

琼海市等保测评机构有哪些?在哪里?

行云管家

等保 等保测评 琼海

云管理平台公司大家都选哪家?选择时候需要考虑哪些因素?

行云管家

云计算 云管理

TiDB 关联子查询优化实践

TiDB 社区干货传送门

实践案例

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章