2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:365145

评论

发布
暂无评论
发现更多内容

m序列码产生电路设计与仿真

timerring

FPGA

软件测试 | 被测系统的需求理解

测吧(北京)科技有限公司

软件测试

量化合约系统开发源码技术搭建丨合约量化系统开发Python成熟代码

I8O28578624

OKR之剑·实战篇05:OKR致胜法宝-氛围&业绩双轮驱动(上)

vivo互联网技术

团队管理 OKR

软件测试与开发

测吧(北京)科技有限公司

软件测试

企业如何实现良好的告警管理流程?

嘉为蓝鲸

告警管理 自动化运维 嘉为 嘉为蓝鲸

稀疏镜像在OpenHarmony上的应用

OpenHarmony开发者

OpenHarmony

云图说丨初识云应用引擎CAE

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

袋鼠云数栈UI5.0焕新升级,全新设计语言DT Design,更懂视觉更懂你!

袋鼠云数栈

大数据 UI

如何在flutter中运行微信小程序

Onegun

flutter 小程序

那些爆火的小游戏你都玩过吗?

没有用户名丶

小程序游戏

在 Asp.Net Core 中什么是认证和授权

newbe36524

C# Kubernetes

阿里云PAI-Diffusion功能再升级,全链路支持模型调优,平均推理速度提升75%以上

阿里云大数据AI技术

人工智能 模型优化 企业号 2 月 PK 榜

【技术干货】开关电源噪声的种类来源和抑制方法解析

元器件秋姐

噪声 变压器 开关 电源

测试开发 | REST Assured 实践(二):断言实现

霍格沃兹测试开发学社

软件测试 | 什么是被测系统架构与数据流分析

测吧(北京)科技有限公司

软件测试

Java CompletableFuture 异步超时实现探索

京东科技开发者

Java jdk RPC 多线程并发 企业号 2 月 PK 榜

Hive 实战

Joseph295

使用 ChatGPT 轻松创建用户注册页面

devpoint

人工智能 AI ChatGPT

码农如何提高自己的品味

京东科技开发者

Java 程序员 代码设计 企业号 2 月 PK 榜 品味

Redis 异步客户端选型及落地实践

京东科技开发者

redis Jedis 客户端 集群库 企业号 2 月 PK 榜

测试开发 | Java 接口自动化测试首选方案:REST Assured 实践 (一)

霍格沃兹测试开发学社

平台工程101:Dev、Sec和Ops的自动化黏合剂

SEAL安全

DevOps 自动化 DevSecOps 平台工程 企业号 2 月 PK 榜

初学者必看!3D建模要学什么软件?

Finovy Cloud

3DMAX maya 3D软件

给 Databend 添加 Scalar 函数 | 函数开发系例一

Databend

嘉为鲸眼可观测中心解决方案获评信通院可观测性优秀案例优秀级

嘉为蓝鲸

自动化运维 嘉为蓝鲸

架构训练营第10期模块6作业

Geek_4db2d5

现实中的量子计算机有望进化成《流量地球2》中的MOSS吗?

博文视点Broadview

低代码实现探索(五十五)后台服务设计

零道云-混合式低代码平台

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章