写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:364809

评论

发布
暂无评论
发现更多内容

一个专科生和云计算的故事,java注解处理器工作原理及过程

Java 程序员 后端

一个非常强大和友好的nginx基于lua-nginx-module(openresty)

Java 程序员 后端

一元稀疏多项式计算器 【 数据结构课设作业 】 带界面

Java 程序员 后端

【数据结构与算法 9】谁发明的八皇后,mysql教程视频百度云

Java 程序员 后端

【深度思考】JDK8中日期类型该如何使用,java面试题百度网盘

Java 程序员 后端

【线程】,东软集团Java笔试题

Java 程序员 后端

一文参透:缓存一致性策略以及雪崩、穿透等问题,java系统架构设计详解

Java 程序员 后端

【设计模式】原型模式,java基础入门第二版第四章课后答案

Java 程序员 后端

一文带你理解Spring Cloud高并发微服务架构核心理念的五脏六腑

Java 程序员 后端

一文彻底弄懂如何选择抽象类还是接口,java序列化和反序列化面试

Java 程序员 后端

【数据结构与算法 12】二分查找,java大数据分析技术栈

Java 程序员 后端

【程序猿历程】2020年总结,java高级课程视频

Java 程序员 后端

一个即将从《蚂蚁金服》离职的Java工程师个人经历与总结

Java 程序员 后端

一口气说出 Redis 16 个常见使用场景,rxjava原理

Java 程序员 后端

【计算机网络】局域网原理与技术,一次哔哩哔哩面试经历

Java 程序员 后端

【设计模式】代理模式,java面试官常问的问题

Java 程序员 后端

一篇文章带你深入了解MySQL 索引相关,linux视频教程下载

Java 程序员 后端

【设计模式】适配器模式,手动实现一个简单的AOP框架

Java 程序员 后端

一文看透Java高并发:Synchronized锁的性质、原理及其缺陷

Java 程序员 后端

一篇文章带你快速理解JVM运行时数据区 、程序计数器详解 (手画详图

Java 程序员 后端

【源码分析设计模式 10】SpringMVC中的建造者模式,mybatis技术原理pdf

Java 程序员 后端

【牛客】从青铜到王者01,java基础入门第二版第二章答案

Java 程序员 后端

一个项目了解 SpringBoot 集成 MyBatis(1),面试必备知识点

Java 程序员 后端

一文读懂 spring MVC 请求处理流程,java程序设计教程第三版

Java 程序员 后端

【新】虚拟机深层系列,java底层实现原理

Java 程序员 后端

【自我感悟&&致学弟学妹】大三上的感悟,linux学习教程

Java 程序员 后端

【金九银十冲刺】Java岗面试题核心每日知识点,kafka原理图

Java 程序员 后端

【阿里Java岗的魔鬼三面】狠心刷完这6份pdf,Java开发经验谈

Java 程序员 后端

一夜之间火爆GitHub的好文!!阿里资深架构师整理分享,疯狂膜拜

Java 程序员 后端

一招教你搞定微信小程序-登录+支付(后台Java,windows内核编程全套视频教程

Java 程序员 后端

一文带你吃透Spring Cloud相关微服务组件及Spring Cloud Config框架

Java 程序员 后端

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章