【FCon上海】与行业领袖共话AI大模型、数字化风控等前沿技术。 了解详情
写点什么

腾讯披露最新大模型训练方法:效率提升至 2.6 倍、可节省 50% 算力成本

  • 2023-11-24
    北京
  • 本文字数:1361 字

    阅读完需:约 4 分钟

大小:708.58K时长:04:01
腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

如今,大模型的参数规模呈现指数级增长。在算力紧缺的背景下,如何提升大模型训练和推理的效率,并降低成本,成为业界关注的焦点。

 

11 月 23 日,腾讯披露,腾讯混元大模型背后的自研机器学习框架 Angel 再次升级,大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50%算力成本。升级后的 Angel 支持单任务万卡级别超大规模训练,进一步提升腾讯云 HCC 大模型专属算力集群的性能和效率。

训练推理效率如何再提升

 

面向大模型训练,腾讯自研了机器学习训练框架 AngelPTM,针对预训练、模型精调和强化学习等全流程进行加速和优化:

 

  • 在存储方面,AngelPTM 计算支持多维度的并行,包括常见的数据并行、模型并行、流水并行和序列并行。此外,腾讯在 ZeRO-Cache 的基础上加入了统一视角技术,通过统一的地址寻址方式把显存和主存打通,训练时大量参数先放到系统对层里,需要时再放到显存里,以此将有限的显存容量扩展,单机存储容量提升 90%。

  • 通讯方面,腾讯通过软硬件结合的方式解决。首先,腾讯用自研交换机构建 3.2T RDMA 网络来拓宽带宽,然后结合框架软件层面做 GPU 拓扑感知,此外还有负载均衡的流水并行。

  • 稳定性方面,腾讯对基础设施的网络、硬件、存储、云原生调度都加了相应的监控指标。发现故障后,调度平台会把故障报告给 AngelPTM 框架。大多数情况下,调度平台会进行自动续训,训练过程中也会写快照。此外,除了系统容错还有收敛性监控,包括参数极值、Loss 曲线、模型参数本身的极值、梯度的极值、中间变量、激活值等。

 

另外,鉴于国产芯片可能会有一些异构的生态,腾讯提供了算子编译层,整个模型研发基本可无缝低成本迁移。

 

为解决推理成本不断上升问题,腾讯自研的大模型推理框架 AngelHCF 通过扩展并行能力,采用了 Embedding 共享、Attention 算子优化、Paged Attention 优化等方式,同时提供了量化、稀疏化、蒸馏和剪枝等关键能力,以提高吞吐能力,从而实现更快的推理性能和更低的成本。

 

根据官方数据,相较于业界主流框架,AngelHCF 的推理速度提高了 1.3 倍。在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

 

目前,相关能力已通过腾讯云对外开放。基于升级后的 Angel 机器学习框架,腾讯云 TI 平台可提供更优的训练和推理加速能力,并支持客户用自己的数据一站式训练精调,基于腾讯混元大模型打造专属智能应用。

一站式应用构建

 

现在的深度机器学习平台已经与之前有了本质的区别:通常大厂商或基础厂商提供基础模型,用户基于这个基础模型做精调,做专属模型的训练,之后再围绕精调后的专属模型做应用构建,搭建一个能释放这个模型推理理解能力的应用框架,嵌入到自己的 APP 或业务流程中。

 

为此,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建。

 

现在的整个生产链路新增加了五个能力:提供基座模型、数据能力、精调、评估和一键部署。模型接入层面,腾讯混元大模型提供千亿、百亿、十亿多个尺寸的模型,来适配各类应用场景的需求;数据处理上,提供清洗、分类、质质检和筛选等数据能力;精调方面,提供 LORA 调参、全参精简调参、全参全量调参等多种调参模式。

 

据悉,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,相比上个月数量翻了一倍,覆盖文本总结、摘要、创作、翻译、代码等多个领域。

 

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2023-11-24 11:316705

评论

发布
暂无评论
发现更多内容

Open AI爆火,4个中国版ChatGPT扎堆爆发 | 社区征文

我搬去水星了

年中技术盘点

IoTOS-v1.5.3 新增 智能诊断&会话记录导出

开源物联卡管理平台-设备管理

物联网平台 IoT 开源物联网 国产开源 开源项目介绍

CnosDB x LangChain: 聊着天来查询时序数据库

CnosDB

开源 时序数据库 CnosDB

2023-07-16:讲一讲Kafka与RocketMQ中零拷贝技术的运用?

福大大架构师每日一题

福大大架构师每日一题

Cnetos7编译安装Pure-Ftpd教程。

百度搜索:蓝易云

云计算 Linux centos 运维 Pure-FTPd

可爱小猫猫【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

领导和团队的自主权——《敏捷实战-破解敏捷落地的60个难题》读后感(二)

Bruce Talk

敏捷开发 Agile

Ins风韩国美少女【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

Nautilus Chain NautDID NFT 即将上线主网,Layer3 数字身份时代开启

大瞿科技

阿里云服务器安装宝塔面板教程。

百度搜索:蓝易云

云计算 Linux 运维 云服务器 ECS

一个普通程序员如何看待chatgpt大火 | 社区征文

不觉心动

年中技术盘点

Antlr4如何自动解析得到AST而不是ParseTree

canonical

ANTLR 低代码 dsl antlr4

明代元素时装小姐姐【InsCode Stable Diffusion美图活动一期】

繁依Fanyi

C语言宏定义中的#和##

芯动大师

人工智能大语言模型微调技术:SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法| 社区征文

汀丶人工智能

LoRa NLP 大模型 LLM模型 年中技术盘点 Freeze微调

华为云ROMA Connect 的智能集成 – 现代企业数字化转型的新利器

华为云PaaS服务小智

云计算 华为云 华为开发者大会

学校招生报名小程序开发笔记(一)

CC同学

我与OpenHarmony| 社区征文

坚果

年中技术盘点

Cnetos7编译安装Tomcat教程。

百度搜索:蓝易云

云计算 tomcat Linux centos 运维

来自内部有很多需求,如何协调处理这些需求?

Bonaparte

产品 产品设计 产品思维 产品需求 内部需求

新一代iPaaS全域融合集成平台ROMA Connect HDC.Cloud 2023内容值得再读!

华为云PaaS服务小智

华为 华为云 华为开发者大会2023

3D渲染速度慢,花重金买显卡还是用云渲染更划算

3DCAT实时渲染

实时渲染云

代码随想录Day18 - 二叉树(五)

jjn0703

少年侠客【InsCode Stable Diffusion美图活动一期】 | 社区征文

度假的小鱼

Stable Diffusion 年中技术盘点

申请 GPT4.0Key!含详细步骤

石云升

AIGC ChatGPT GPT-4

从0到1:跑团小程序开发心得笔记

CC同学

人工智能自然语言处理:N-gram和TF-IDF模型详解

汀丶人工智能

人工智能 自然语言处理 nlp tf-idf N-gram

Nautilus Chain NautDID NFT 将上主网,Layer3 数字身份时代开启

股市老人

chatgpt和文心一言哪个更厉害 | 社区征文

张三丰无极

年中技术盘点

小设计,大作用——谈谈防腐层的妙用

JAVA旭阳

Java

腾讯披露最新大模型训练方法:效率提升至2.6倍、可节省50%算力成本_AI&大模型_褚杏娟_InfoQ精选文章