写点什么

腾讯披露最新大模型训练方法:效率提升至 2.6 倍、可节省 50% 算力成本

  • 2023-11-24
    北京
  • 本文字数:1361 字

    阅读完需:约 4 分钟

大小:708.58K时长:04:01
腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本

如今,大模型的参数规模呈现指数级增长。在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

 

11 月 23 日,腾讯披露,腾讯混元大模型背后的自研机器学习框架 Angel 再次升级,大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练,进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

 

面向大模型训练,腾讯自研了机器学习训练框架 AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化:

 

  • 在存储方面,AngelPTM 计算支持多维度的并行,包括常见的数据并行、模型并行、流水并行和序列并行。此外,腾讯在 ZeRO-Cache 的基础上加入了统一视角技术,通过统一的地址寻址方式把显存和主存打通,训练时大量参数先放到系统对层里,需要时再放到显存里,以此将有限的显存容量扩展,单机存储容量提升 90%。

  • 通讯方面,腾讯通过软硬件结合的方式解决。首先,腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽,然后结合框架软件层面做 GPU 拓扑感知,此外还有负载均衡的流水并行。

  • 稳定性方面,腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后,调度平台会把故障报告给 AngelPTM 框架。大多数情况下,调度平台会进行自动续训,训练过程中也会写快照。此外,除了系统容错还有收敛性监控,包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

 

另外,鉴于国产芯片可能会有一些异构的生态,腾讯提供了算子编译层,整个模型研发基本可无缝低成本迁移。

 

为解决推理成本不断上升问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力,采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式,同时提供了量化、稀疏化、蒸馏和剪枝等关键能力,以提高吞吐能力,从而实现更快的推理性能和更低的成本。

 

根据官方数据,相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

 

目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

一站式应用构建

 

现在的深度机器学习平台已经与之前有了本质的区别:通常大厂商或基础厂商提供基础模型,用户基于这个基础模型做精调,做专属模型的训练,之后再围绕精调后的专属模型做应用构建,搭建一个能释放这个模型推理理解能力的应用框架,嵌入到自己的 APP 或业务流程中。

 

为此,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建。

 

现在的整个生产链路新增加了五个能力:提供基座模型、数据能力、精调、评估和一键部署。模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,来适配各类应用场景的需求;数据处理上,提供清洗、分类、质质检和筛选等数据能力;精调方面,提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

 

据悉,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

 

2023-11-24 11:318657

评论

发布
暂无评论
发现更多内容

时间很贵,有趣才对

小天同学

读书笔记 读书感悟 好书推荐 有趣 4月日更

专访阿里巴巴研究员吴翰清 | 安全的持续运营之道

架构精进之路

4月日更 调查采访能力考核 人物访谈

专访前美篇首席架构师张超|从工程师到CTO的蜕变

Aldeo

程序员 采访 调查采访能力考核

TO B产品从0到1:从项目中走出来

菜根老谭

产品孵化

万字长文,38 图爆肝 Redis 基础!

一个优秀的废人

redis 数据结构 集合 哈希表 跳表

gdb调试工具使用

正向成长

gdb

阿里P8带你学习:一次线上服务高 CPU 占用优化实践

学Java关注我

Java 编程 架构 程序人生 软件架构

YouTube如何下载1080P的高清视频带声音?5种方法可以搞定

右手牵

下载 视频 youtube

Zip和7-zip谁更强,如何选择?

麦洛

ZIP格式 ZIP zip4j

腾讯iOS开发要达到咋样的水准?

一意孤行的程序员

flutter 职业规划 音视频 ios开发 iOS逆向

产业级项目实战配合技术讲解,百度零门槛AI开发实训营重磅开营

百度大脑

百度 AI

云洲链硬核支撑!济南标识解析二级节点解析量全国第一

云计算

百度南渡,护航泉州水务的产业智能化征程

脑极体

不忘初心,中级领导力修炼

IT民工大叔

领导力 管理

手机淘宝轻店业务 Serverless 研发模式升级实践

Serverless Devs

阿里云 Serverless 云原生 淘宝

数字化转型:打破孤岛以提高数据安全性

龙归科技

数字化

独家对话阿里云函数计算负责人不瞋:你所不知道的 Serverless

阿里巴巴云原生

Serverless 容器 微服务 开发者 云原生

Linux nslookup 命令

一个大红包

Linux linux命令 4月日更

苦难中开花|靠谱点评

无量靠谱

随机而转 当机而动|靠谱点评

无量靠谱

低代码真能做到“让人人都能做开发者”吗?

优秀

低代码

Go Channel

escray

学习 极客时间 Go 语言 4月日更

如何缓解低代码开发的安全风险

YonBuilder低代码开发平台

小程序云开发 开发者 低代码 APP开发 APICloud

英特尔Ice Lake对于高性能计算市场意味着什么

E科讯

基于mysqldump聊一聊MySQL的备份和恢复

麦洛

MySQL MySQL 运维 数据备份

【全网首发】2021 年从iOS初级到大牛,涵盖大部分iOS开发知识体系,不会没收藏吧!

一意孤行的程序员

swift 面试 ios开发 底层应用开发 知识分享

Rust从0到1-代码组织-Packages和Crates

rust Package crate

架构师实战营 模块一总结

代廉洁

架构实战营

话题讨论|To B & To G,互联网公司的下一主战场

程序员架构进阶

话题讨论 28天写作 4月日更 To B业务 领域思考

如何批评下属?

石云升

团队建设 28天写作 职场经验 管理经验 4月日更

JVM 读书笔记(一) 内存划分

U2647

JVM 4月日更

腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟_InfoQ精选文章