写点什么

腾讯披露最新大模型训练方法:效率提升至 2.6 倍、可节省 50% 算力成本

  • 2023-11-24
    北京
  • 本文字数:1361 字

    阅读完需:约 4 分钟

大小:708.58K时长:04:01
腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本

如今,大模型的参数规模呈现指数级增长。在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

 

11 月 23 日,腾讯披露,腾讯混元大模型背后的自研机器学习框架 Angel 再次升级,大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练,进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

 

面向大模型训练,腾讯自研了机器学习训练框架 AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化:

 

  • 在存储方面,AngelPTM 计算支持多维度的并行,包括常见的数据并行、模型并行、流水并行和序列并行。此外,腾讯在 ZeRO-Cache 的基础上加入了统一视角技术,通过统一的地址寻址方式把显存和主存打通,训练时大量参数先放到系统对层里,需要时再放到显存里,以此将有限的显存容量扩展,单机存储容量提升 90%。

  • 通讯方面,腾讯通过软硬件结合的方式解决。首先,腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽,然后结合框架软件层面做 GPU 拓扑感知,此外还有负载均衡的流水并行。

  • 稳定性方面,腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后,调度平台会把故障报告给 AngelPTM 框架。大多数情况下,调度平台会进行自动续训,训练过程中也会写快照。此外,除了系统容错还有收敛性监控,包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

 

另外,鉴于国产芯片可能会有一些异构的生态,腾讯提供了算子编译层,整个模型研发基本可无缝低成本迁移。

 

为解决推理成本不断上升问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力,采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式,同时提供了量化、稀疏化、蒸馏和剪枝等关键能力,以提高吞吐能力,从而实现更快的推理性能和更低的成本。

 

根据官方数据,相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

 

目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

一站式应用构建

 

现在的深度机器学习平台已经与之前有了本质的区别:通常大厂商或基础厂商提供基础模型,用户基于这个基础模型做精调,做专属模型的训练,之后再围绕精调后的专属模型做应用构建,搭建一个能释放这个模型推理理解能力的应用框架,嵌入到自己的 APP 或业务流程中。

 

为此,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建。

 

现在的整个生产链路新增加了五个能力:提供基座模型、数据能力、精调、评估和一键部署。模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,来适配各类应用场景的需求;数据处理上,提供清洗、分类、质质检和筛选等数据能力;精调方面,提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

 

据悉,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

 

2023-11-24 11:319045

评论

发布
暂无评论
发现更多内容

灵活多样认证授权,零开发投入保障IoT安全

EMQ映云科技

安全 物联网 认证授权 emqx 8月月更

PingCode 权限系统设计与实现

PingCode研发中心

权限系统

封仲淹:OceanBase社区版4.0未来畅想

OceanBase 数据库

企业数字化转型,如何实现业务部门与算法部门共同探索模型开发优化

ModelWhale

数据分析 工作流 数字化转型 业务思维 协同开发

机器学习服务文本翻译能力升级,中文直译模型让译文表达更地道!

HarmonyOS SDK

「数澈软件」获5300万元种子轮融资,构建新一代软件供应链防火墙

SEAL安全

软件供应链安全

基于高效采样算法的时序图神经网络系统(一)

Baihai IDP

人工智能 神经网络 深度学习 图数据

【LeetCode】合并区间Java题解

Albert

LeetCode 8月月更

芯声智能亮相亚洲智能穿戴展,智能头盔声学方案为骑手保驾护航

硬科技星球

精妙绝伦!10年阿里工作经验总结出这份亿级高并发系统设计手册,真的太强了!

退休的汤姆

Java、 面经 社招 Java工程师 秋招

企业如何跨部门实现模型应用全生命周期管理

ModelWhale

数字化转型 应用模型 迭代管理 跨部门沟通 算法模型

企业如何将自身的数字技术及研究成果快速对外发布应用

ModelWhale

数字化转型 部署 应用模型 对外接口 协同开发

企业分账如何帮助用户解决成本优化和预算分配的问题

阿里巴巴中间件

阿里云 Serverless 云原生 SAE

2022 OceanBase数据库大赛开启,30W奖金等你来拿!

OceanBase 数据库

从InfluxDB到TDengine,阳光氢能为什么会做出这个选择?

TDengine

数据库 tdengine 时序数据库

Web3 的通行证——DID 带来数字身份革命

One Block Community

产品和管理必备技能 Top 5

宇宙之一粟

产品 领导力 8月月更

ModelBox开发体验:使用YOLOv3做口罩检测

华为云开发者联盟

人工智能 ModelBox

动态尺寸模型优化实践之Shape Constraint IR Part II

阿里云大数据AI技术

深度学习 编译器 优化

什么是公共云、私有云、混合云、社区云,四者分别有啥区别?

wljslmz

云计算 8月月更

云原生数据库白皮书,发布!

华为云开发者联盟

数据库 云原生 后端 华为云 白皮书

使用 OpenTelemetry 零代码修改接收 SkyWalking 追踪数据

Daocloud 道客

云原生 可观测性 Skywalking OpenTelemetry

为什么 DevOps 会失败?

飞算JavaAI开发助手

Go-Excelize API源码阅读(十七)——GetPageLayout、SetPageMargins

Regan Yue

Go 开源 源码解析 8月日更 8月月更

一次客户需求引发的K8S网络探究

京东科技开发者

k8s 中台架构 #k8s K8s 多集群管理 数据库·

易周金融分析 | Q2手机银行活跃用户环比增长2.17%

易观分析

金融 手机银行

“副业焦虑”席卷Z世代,今天你的副业失败了吗?

博文视点Broadview

收到面试通知后,如下的准备可以大大提升面试成功率

TimeFriends

8月月更

创建第一个 Cypress 应用后使用命令行 npx Cypress open 报错的原因分析

汪子熙

前端开发 自动化测试 Cypress web开发 8月月更

J2EE进阶(三)struts2 <s:action>标签的用法及Spring在web.xml中的配置

No Silver Bullet

spring Struts2 8月月更 <s:action>

开源一夏 | 如何在 JavaScript 中创建虚拟键盘

海拥(haiyong.site)

JavaScript 开源 前端 8月月更

腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟_InfoQ精选文章