【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

腾讯披露最新大模型训练方法:效率提升至 2.6 倍、可节省 50% 算力成本

  • 2023-11-24
    北京
  • 本文字数:1361 字

    阅读完需:约 4 分钟

大小:708.58K时长:04:01
腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本

如今,大模型的参数规模呈现指数级增长。在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

 

11 月 23 日,腾讯披露,腾讯混元大模型背后的自研机器学习框架 Angel 再次升级,大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练,进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

 

面向大模型训练,腾讯自研了机器学习训练框架 AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化:

 

  • 在存储方面,AngelPTM 计算支持多维度的并行,包括常见的数据并行、模型并行、流水并行和序列并行。此外,腾讯在 ZeRO-Cache 的基础上加入了统一视角技术,通过统一的地址寻址方式把显存和主存打通,训练时大量参数先放到系统对层里,需要时再放到显存里,以此将有限的显存容量扩展,单机存储容量提升 90%。

  • 通讯方面,腾讯通过软硬件结合的方式解决。首先,腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽,然后结合框架软件层面做 GPU 拓扑感知,此外还有负载均衡的流水并行。

  • 稳定性方面,腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后,调度平台会把故障报告给 AngelPTM 框架。大多数情况下,调度平台会进行自动续训,训练过程中也会写快照。此外,除了系统容错还有收敛性监控,包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

 

另外,鉴于国产芯片可能会有一些异构的生态,腾讯提供了算子编译层,整个模型研发基本可无缝低成本迁移。

 

为解决推理成本不断上升问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力,采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式,同时提供了量化、稀疏化、蒸馏和剪枝等关键能力,以提高吞吐能力,从而实现更快的推理性能和更低的成本。

 

根据官方数据,相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

 

目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

一站式应用构建

 

现在的深度机器学习平台已经与之前有了本质的区别:通常大厂商或基础厂商提供基础模型,用户基于这个基础模型做精调,做专属模型的训练,之后再围绕精调后的专属模型做应用构建,搭建一个能释放这个模型推理理解能力的应用框架,嵌入到自己的 APP 或业务流程中。

 

为此,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建。

 

现在的整个生产链路新增加了五个能力:提供基座模型、数据能力、精调、评估和一键部署。模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,来适配各类应用场景的需求;数据处理上,提供清洗、分类、质质检和筛选等数据能力;精调方面,提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

 

据悉,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-11-24 11:316457

评论

发布
暂无评论
发现更多内容

使用Jira盗版会存在的6大风险

PingCode

项目管理 软件开发 软件管理

RocketMQ Streams拓扑构建与数据处理过程

Apache RocketMQ

RocketMQ 消息列队

如何让OpenHarmony编译速度“狂飙”

离北况归

OpenHarmony

理论+实践,教你如何使用Nginx实现限流

华为云开发者联盟

后端 开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

聊聊Docker镜像

天翼云开发者社区

Docker 镜像

简单概述Serverless

天翼云开发者社区

10大知识管理软件厂商有对比

PingCode

项目管理 知识管理软件

NFTScan 正式上线 Fantom 网络 NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT 数据基础设施

泰山众筹sun4.0矩阵合约系统开发搭建

开发微hkkf5566

9种跨域方式实现原理

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

SparK 用稀疏掩码为卷积设计 Bert 预训练

Zilliz

计算机视觉

新年新气象,老兵开新坑

致知Fighting

Java Go 服务器

谈谈我工作中的23个设计模式

阿里巴巴中间件

阿里云 云原生

一文教你如何重新认识用户

蔡农曰

互联网 产品经理 消费者 需求设计

浪潮云:以数据云IBP释放数据要素力量

浪潮云

云计算 数据云

全景剖析阿里云容器网络数据链路(三):Terway ENIIP

阿里巴巴云原生

阿里云 云原生 云原生容器

实战分享 | 金融数据采集报送平台实践

葡萄城技术团队

OpenHarmony标准系统内核学习【2】CPU轻量级隔离特性

离北况归

OpenHarmony

工业生产环境下,时序数据库 TDengine 如何打造全面有效的数字化监控?

TDengine

数据库 tdengine 时序数据库

LeaRun快速开发平台:自由搭建个性化门户

力软低代码开发平台

如何用Apipost校验响应结果

爱研究代码的极客人

APi设计 JSON Schema apipost

基于GIS+WebGL智慧消防3D可视化云控系统

2D3D前端可视化开发

智慧消防 消防物联网云平台 消防三维可视化 智慧消防系统 消防云控平台

行云洞见|为何行业权威都预测“云原生IDE 将成为常态”?

行云创新

ide 云原生 云端IDE Cloud IDE TitanIDE

单线程 Redis 如此之快的 4 个原因

C++后台开发

redis 中间件 后端开发 单线程 C++开发

APISIX Ingress 如何使用 Cert Manager 管理证书

API7.ai 技术团队

证书 api 网关 APISIX Ingress Controller

易观千帆 | 12月用户体验GX评测:国有行及股份行持续领跑,农信社用户体验关注提升

易观分析

金融 手机银行

全球化安全生产 & 质量保障体系建设探索

阿里技术

质量保障 安全生产 全球化技术能力

如何通过jstat命令进行查看堆内存使用情况

华为云开发者联盟

后端 开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

MySQL中的distinct和group by哪个效率更高?

Steven

线上网络丢包引起的接口响应时间过慢,快速排查案例

KINDLING

Java 运维 网络 丢包 eBPF&Linux

单线程架构的Redis如此之快的 4 个原因

JAVA旭阳

redis 缓存

腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟_InfoQ精选文章