写点什么

腾讯发布超大预训练系统派大星,聚焦解决 BERT 等超大模型训练时的“GPU 内存墙”问题

  • 2021-11-02
  • 本文字数:748 字

    阅读完需:约 2 分钟

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题

近日,腾讯微信 AI 团队联合 Tencent NLP Oteam 于 GitHub 上发布开源项目派大星“PatrickStar”。该开源项目将聚焦解决 GPT、BERT 等超大模型训练时产生的“GPU 内存墙”问题,使用更为创新的异构内存管理方法,让相同配置的机器能够训练更大的模型,以更节能环保的方式让预训练模型普惠每位 NLP 社区用户。经测试结果显示,派大星性能表现优于微软 DeepSpeed,在不到 5000 元价位的个人游戏电脑上,即可训练一个 7 亿参数的 GPT 模型。



以 GPT、BERT 为代表的预训练模型(PTM)是自然语言处理(NLP)领域的核心技术,但由于 GPU 硬件的存储空间有限,PTM 的可训练规模难以突破,专业人员称之为"GPU 内存墙",同时, PTM 预训练的过程具备高耗能、高成本、高碳等弊端——往往训练一次万亿级别的预训练模型要烧掉 154 万人民币,消耗的电能制释相当于数十辆小汽车从出厂到报废的碳排放总和。


为攻克该痛点,腾讯微信 AI 团队联合 TencentNLP Oteam 从头搭建了派大星。它通过细粒度的方式管理模型数据,更有效使用了异构内存空间,进一步突破 PTM 模型规模的极限。同时,派大星的设计比同类方法占用更低内存使用,减少了 CPU 和 GPU 之间数据搬移开销,从而显著提升了计算资源的利用率。并且,派大星可以和多种并行训练方式正交使用。比如,派大星使用微软提出的零冗余优化器来实现单机多卡的数据并行。


实验结果表明,派大星将模型规模上限在目前最佳方案 DeepSpeed 的基础上提升了 1.5 倍,并且展现了明显高于 DeepSpeed 的计算效率。这将极大降低了 PTM 训练过程中的碳排放,以技术优化的方式助力低碳环保事业。


目前,派大星已参与到微信搜一搜、微信对话开放平台、小微智能音响等产品研发工作中,助力降低 GPU 卡使用数量,提升机器的利用率,减少数据中心的碳排放规模。接下来,微信 AI 团队也将持续深化开源技术的研发及应用,以创新促进行业发展及生态建设。

2021-11-02 13:364773

评论

发布
暂无评论
发现更多内容

智慧公安重点人员管控系统开发建设方案

a13823115807

智慧公安

数字化转型时代,如何让你的 App 摆脱“内卷”?

王字 Wannz

小程序 去中心化 finclip 互联网生态

Python代码阅读(第70篇):删除列表一边的n个元素

Felix

Python 编程 Code 列表 阅读代码

京东金融云,三年造五力

脑极体

语音合成(TTS)技术在有道词典笔中的应用实践

有道技术团队

人工智能 语音合成 网易有道

从高盛的技术“开源”看金融业软件发展未来

王字 Wannz

金融科技 开源项目 开源技术 小程序框架

实现更高性能,一起探索Amazon Redshift高级查询加速器

亚马逊云科技 (Amazon Web Services)

Data

问诊把脉“实景三维业务发展瓶颈在哪里”和“御医良方”

焱融科技

云计算 云原生 GIS 高性能 文件存储

打气球

Tiger

28天写作

微前端技术在游戏平台后台系统的实践

bilibili游戏技术

游戏

决战下半场:小程序技术助力金融 APP 重回 C 位

王字 Wannz

小程序 移动应用 数字化时代 finclip

Linux一学就会--Shell教程 || Shell的基础用法(详细)

学神来啦

Linux centos 运维 Shell linux云计算

给弟弟的信第18封|除了自己,你谁也改变不了

大菠萝

28天写作

开发小程序的正确方式

王字 Wannz

小程序 小程序制作 finclip 凡泰极客 小程序框架

DataPipeline与飞腾完成产品兼容性互认证,携手共建自主IT底层生态

DataPipeline数见科技

cpu 数字化转型 中间件 数据融合 数据管理

智慧警务系统建设方案,公安重点人员动态管控系统开发

电微13828808271

公安合成作战指挥系统开发,情指勤舆一体化平台建设

电微13828808271

恒源云(GPUSHARE)_云GPU服务器如何使用Spyder?

恒源云

人工智能 #python 算力加速

权威专访|对话凡泰极客联合创始人杨涛: 小程序生态市场潜力广阔

王字 Wannz

小程序 移动应用 小程序生态 凡泰极客

企业如何正确使用CRM系统?

低代码小观

低代码 企业管理 CRM CRM系统 企业管理软件

质量基础设施一站式服务线上平台助力高质量发展

电微13828808271

Amazon Aurora 并行查询——加速分析处理的利器

亚马逊云科技 (Amazon Web Services)

Data

阿联酋区块链大会“DCS 2021 ” 闭幕 Hoo虎符成会展焦点

区块链前沿News

DCS 虎符 Hoo 虎符交易所 DCS 2021

你未必知道的 WebRTC – 前世、今生、未来

王字 Wannz

WebRTC 音频技术 元宇宙

【MongoDB学习笔记】MongoDB 快速入门

恒生LIGHT云社区

数据库 mongodb

小程序的昨日与今天

王字 Wannz

小程序 小程序生态 开发框架 finclip

盘点 2021 征文大赛|记录你的年度闪光时刻!

InfoQ写作社区官方

盘点2021 热门活动

Atlassian 被 Forrester Wave 评选为企业服务管理的领导者!

Atlassian

Atlassian Jira 协作 ITSM Confluence

IP创作

张老蔫

28天写作

CameraX入门笔记

Changing Lin

12月日更

Java、Go 和 Rust 的比较

百度开发者中心

Java Go rust

腾讯发布超大预训练系统派大星,聚焦解决BERT等超大模型训练时的“GPU内存墙”问题_开源_InfoQ编辑部_InfoQ精选文章