2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:365175

评论

发布
暂无评论
发现更多内容

Intel要跟华硕等OEM品牌推出DG2显卡?官方:消息不属实

科技新消息

【存储专栏】打破K/V存储的性能瓶颈

趣链科技

区块链 存储

全网通用Python点赞器(俗称刷分机器),想知道原理吗?看完本文你自己也能写个

梦想橡皮擦

9月日更

一张图读懂Z-ONE Studio Lite

SOA开发者

华为云GaussDB(for MySQL)2.0全新升级,三大技术大揭秘

华为云开发者联盟

数据库 云原生 GaussDB GaussDB(for MySQL) 华为全联接2021

滴滴 x StarRocks:极速多维分析创造更大的业务价值

StarRocks

数据库 数据分析 滴滴 Clickhouse StarRocks

一文教你如何落地spring cloud alibaba企业级架构

小鲍侃java

后端 引航计划

考试系统高并发试卷存储设计方案

Imaginary

你知道怎么离线安装全局 node 模块吗?

编程三昧

大前端 npm Node 离线包 9月日更

浏览器测试的三大挑战及解决方案【译】

FunTester

软件测试 测试 FunTester 兼容性测试 浏览器测试

在线Emoji符号大全

入门小站

工具

从敏捷开发到全自动开发,加速实现企业数字化转型

飞算JavaAI开发助手

书单 | 带你轻松度假的10本好书!

博文视点Broadview

Python代码阅读(第28篇):计算列表中位数

Felix

Python 编程 Code Programing 阅读代码

Java变异出现错误:No enclosing instance of type XXX is accessible

华为云开发者联盟

Java

一张图读懂Z-ONE Studio Lite

SOA开发者平台

Prometheus 2.27.0 新特性

耳东@Erdong

release Prometheus 9月日更

Chrome浏览器控制台支持中文

FunTester

chrome 浏览器 控制台 FunTester 中文

多租户是什么意思?怎么理解?

行云管家

云计算 运维 SaaS

Redis可观测最佳实践,5大关键指标最全解析!

观测云

redis

Go 中五个常见错误

baiyutang

golang 9月日更

【墨天轮专访第五期】偶数科技常雷:创新改变世界,深耕云数据仓库

墨天轮

数据库 国产数据库

送你一个Python 数据排序的好方法

华为云开发者联盟

Python 数据分析 数据排序

如何实现一款毫秒级实时数据分析引擎

Shopee技术团队

大数据 数据分析 后端 HBase

一张图读懂Z-ONE Digital Car

SOA开发者平台

“智感超清”之HDR技术落地实践

百度开发者中心

最佳实践 音视频

Flutter 对状态管理的认知与思考

小呆呆666

flutter ios android 大前端 dart

华为云开天aPaaS 上线,服务千万开发者,使能行业场景化创新

华为云开发者联盟

华为云 企业应用 开天aPaaS aPaaS 华为云生态

等保是强制的吗?企业不办等保有啥处罚?

行云管家

网络安全 等保 等保2.0

Intel高管披露Arc显卡合作厂商?官方否认

科技新消息

Linux用户/用户组编辑

在即

9月日更

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章