写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:365104

评论

发布
暂无评论
发现更多内容

☕【JVM监控实战】教会你使用Arthas(监控ElasticSearch服务)

码界西柚

JVM 故障定位 Arthas 6月日更

详解 SQL 中的单表查询

悟空聊架构

sql 6月日更 单表查询 T-SQL

全球首个开源图像识别系统上线了!人脸、商品、车辆识别一网打尽!

百度大脑

人脸识别 图像识别

作为新时代的Java工程师,你需要具备什么能力?

卢卡多多

Java 能力提升 6月日更 六月

用VSCode刷LeetCode

IT蜗壳-Tango

6月日更

zookeeper原生api操作

赵镇

zookeeper

深入浅出 LVS 负载均衡(四)实操 DR 模型、Keepalived DR 模型的高可用

UCloud技术

负载均衡

模块7作业

Geek_2e7dd7

架构训练营

Kubernetes手记(20)- HeapSter监控

雪雷

k8s 6月日更

在线URLEncode编码,URLDecode解码工具

入门小站

工具

你会选做通才还是专才?

石云升

职场经验 6月日更

只把华为“桑田岛时间”看做一档对话节目?格局小了!

脑极体

react源码解析19.手写迷你版react

全栈潇晨

react.js

Pandas高级教程之:处理缺失数据

程序那些事

Python 数据分析 pandas 程序那些事

面试官:谈谈你对geohash的理解和如何实现附近人功能呢?

李阿柯

redis 面试 geohash

微信小程序开发(一)

空城机

微信小程序 大前端 6月日更

Linux之mv命令

入门小站

Linux

分布式锁相关探索

常清静

redis 分布式锁 zookeeper分布式锁 redisson 分布式锁

“布”道AI的正确打开方式

脑极体

想要做好微服务化,这个核心对象要管好

BoCloud博云

微服务

HarmonyOS 实战—服务卡片初体验

爱吃土豆丝的打工人

HarmonyOS 服务卡片 鸿蒙卡片

bzz|chia矿池挖矿系统APP开发搭建

薇電13242772558

区块链

Jenkins 如何与 Kubernetes 集群的 Tekton Pipeline 交互?

张晓辉

Kubernetes 云原生 jenkins Tekton CI/CD

采访华为服务器OS首席架构师熊伟:开源背后的故事(采访提纲)

xcbeyond

采访提纲 6月日更

百度与张江集团达成战略合作,AI助推上海城市数字化转型

百度大脑

人工智能

【21-16】PowerShell循环

耳东@Erdong

PowerShell 6月日更

浪潮云说丨叮!这是一份浪潮云物联网平台的简历,请查收!

云计算

带你掌握4种Python排序算法

华为云开发者联盟

Python 编程 算法 排序 冒泡排序

协同过滤推荐算法(十六)

Databri_AI

推荐算法

Java8 的时间库(2):Date 与 LocalDate 或 LocalDateTime 互相转换

看山

Java 6月日更

“云智技术论坛”即将召开,百度智能云带来端边云全面智能化平台

百度大脑

人工智能 物联网 云智一体

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章