腾讯披露最新大模型训练方法：效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟

限时领｜《AI 百问百答》专栏课+实体书（包邮）！了解详情 



 写点什么



大小：708.58K时长：04:01

如今，大模型的参数规模呈现指数级增长。在算力紧缺的背景下，如何提升大模型训练和推理的效率，并降低成本，成为业界关注的焦点。

11 月 23 日，腾讯披露，腾讯混元大模型背后的自研机器学习框架 Angel 再次升级，大模型训练效率提升至主流开源框架的 2.6 倍，千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练，进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

面向大模型训练，腾讯自研了机器学习训练框架 AngelPTM，针对预训练、模型精调和强化学习等全流程进行加速和优化：

在存储方面，AngelPTM 计算支持多维度的并行，包括常见的数据并行、模型并行、流水并行和序列并行。此外，腾讯在 ZeRO-Cache 的基础上加入了统一视角技术，通过统一的地址寻址方式把显存和主存打通，训练时大量参数先放到系统对层里，需要时再放到显存里，以此将有限的显存容量扩展，单机存储容量提升 90%。
通讯方面，腾讯通过软硬件结合的方式解决。首先，腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽，然后结合框架软件层面做 GPU 拓扑感知，此外还有负载均衡的流水并行。
稳定性方面，腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后，调度平台会把故障报告给 AngelPTM 框架。大多数情况下，调度平台会进行自动续训，训练过程中也会写快照。此外，除了系统容错还有收敛性监控，包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

另外，鉴于国产芯片可能会有一些异构的生态，腾讯提供了算子编译层，整个模型研发基本可无缝低成本迁移。

为解决推理成本不断上升问题，腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力，采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式，同时提供了量化、稀疏化、蒸馏和剪枝等关键能力，以提高吞吐能力，从而实现更快的推理性能和更低的成本。

根据官方数据，相较于业界主流框架，AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中，推理耗时从原本的 10 秒缩短至 3 至 4 秒。

目前，相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架，腾讯云 TI 平台可提供更优的训练和推理加速能力，并支持客户用自己的数据一站式训练精调，基于腾讯混元大模型打造专属智能应用。

一站式应用构建

现在的深度机器学习平台已经与之前有了本质的区别：通常大厂商或基础厂商提供基础模型，用户基于这个基础模型做精调，做专属模型的训练，之后再围绕精调后的专属模型做应用构建，搭建一个能释放这个模型推理理解能力的应用框架，嵌入到自己的 APP 或业务流程中。

为此，Angel 还提供了从模型研发到应用落地的一站式平台，支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力，加速大模型应用构建。

现在的整个生产链路新增加了五个能力：提供基座模型、数据能力、精调、评估和一键部署。模型接入层面，腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型，来适配各类应用场景的需求；数据处理上，提供清洗、分类、质质检和筛选等数据能力；精调方面，提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

据悉，腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测，相比上个月数量翻了一倍，覆盖文本总结、摘要、创作、翻译、代码等多个领域。

发布

暂无评论

创作场景

腾讯披露最新大模型训练方法：效率提升至 2.6 倍、可节省 50% 算力成本

训练推理效率如何再提升

一站式应用构建

评论

云主机AI服务的性能测试和优化

面试，有时候是个运气活

2024-04-17：用go语言，欢迎各位勇者莅临力扣城，本次的挑战游戏名为「力扣泡泡龙」。游戏的起点是一颗形状如二叉树的泡泡树，其中每个节点的值代表该泡泡的分值。勇者们有一次机会可以击破一个节点泡

深蓝互动将启动《重返未来：1999》鸿蒙原生应用开发

如何爬出Kotlin协程死锁的坑？

再获权威认可！天翼云论文被IEEE/ACM CCGrid收录

揭秘APP自动化测试中弹窗异常处理的技术要点

Advanced RAG 03：运用 RAGAs 与 LlamaIndex 评估 RAG 应用

利用1688.item_get API接口，快速定位智能手表新品，商品ID一键获取

Apache Doris 2.1.2 版本正式发布！

【活动报名】WorkPlus AI助理沙龙——把AI装进企业，企业级AI落地场景分享

免费在线OCR识别工具TextIn Tools，开启智能学习新时代

盘点|《数据安全法》的62项配套「国家标准」（附下载）

DTC2024，华为云数据库创新融合大发展，打造世界级数据库！

简单了解国密与信创的四大关系-行云管家

比特币L2项目主网密集上线：新业态背后的挑战与机遇

数据相关术语、英文翻译以及定义汇总看这里！

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v11.5版已发布

中国服装品牌商品计划管理系统落地难题探究

深度解读《深度探索C++对象模型》之拷贝构造函数

【PolarDB-X从入门到精通】第五讲：PolarDB集中式版安装部署（源码编译部署）

阻碍团队使用工具的原因竟然是……

网络审计：为什么定期检查您的网络很重要

揭秘APP自动化测试中弹窗异常处理的技术要点！

使用 Docker 部署 instantbox 轻量级 Linux 系统

创作场景

腾讯披露最新大模型训练方法：效率提升至 2.6 倍、可节省 50% 算力成本

训练推理效率如何再提升

一站式应用构建

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载