【ArchSummit 】国内外100+顶尖专家齐聚 ,AI、云原生、数智化全面囊括! 了解详情
写点什么

打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?

  • 2024-05-15
    北京
  • 本文字数:2690 字

    阅读完需:约 9 分钟

大小:1.36M时长:07:56
打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?

6 月 14 - 15 日 ArchSummit 全球架构师峰会·深圳,深度探索大模型时代软件架构最佳设计。

采访嘉宾|刘凯,腾讯混元大模型推理方向负责人

作者 | 华卫


2023 年 9 月,腾讯终于在一片翘首以盼中推出自研的混元大模型。对于入局早晚的问题,腾讯董事会主席兼首席执行官马化腾曾这样说道,“我们在埋头研发,但并不急于早早做完,把半成品拿出来展示。”


据悉,混元大模型未来能支持 50 多个腾讯业务产品,而幻觉比主流开源大模型降低 30% 至 50%、文生图推理耗时缩短至 3-4 秒,是混元大模型目前已达到的推理性能。那么,其背后的核心团队究竟做了哪些努力?技术实力到底如何?


就此,InfoQ 对腾讯混元大模型推理方向负责人刘凯进行了专访,听他详细讲述了腾讯混元大模型在推理和压缩方面的技术能力与团队实践。在即将召开的AICon全球人工智能开发与应用大会 暨 大模型应用生态展上,InfoQ 也邀请到刘凯老师来做演讲分享,他将进一步透露大模型推理加速与压缩的技术方法以及腾讯混元大模型的落地进展。

 

以下为访谈实录,经编辑。


如何在推理赛道扳回“一局”?

InfoQ:作为较晚入场大模型的国内互联网大厂,腾讯团队有什么优势?

刘凯:对于晚入场这个说法,并不准确。早在 2020 年,腾讯出于自身业务需要已经展开预训练大模型的技术探索和积累,并率先在内部业务譬如广告上进行应用投产。腾讯对于处理前沿技术探索和输出的关系,一贯以来是比较一致的,对于正在探索的技术路线,往往会用自身业务作为试验田对方案进行反复验证和完善,之后才会对外发布和输出。

说到优势,我觉得在大模型技术的前沿探索中,腾讯在以下方面具备相当的积累和竞争力:1、在数据、算法、工程等方向,我们有一批经验丰富的专家;2、我们有一个强大的机器学习平台 Angel(曾获 2023 年中国电子学会科学技术进步一等奖);3、腾讯内部有大量适合大模型落地的业务应用场景,能在和业务的合作中助力腾讯混元团队能力的快速成长。


InfoQ:推理能力对大模型而言十分关键,腾讯混元大模型做到了什么水平?目前是否有量化的能力指标?

刘凯:目前腾讯混元大模型的吞吐能力达到开源框架的 2 倍以上,文生图 &文生视频推理耗时下降 65%。规模上,模型支持万亿 MoE、上下文长度保持 256K 以上,同时支持多种压缩方法,包括量化、蒸馏、裁剪、稀疏、并行解码、步数蒸馏等,能在保证效果无损的基础上,将吞吐提升 2~8 倍。


InfoQ:不同模态的内容生成框架下,混元大模型采用的推理和压缩方法有差异吗?

刘凯:会存在一定的差异。比如文生文 &图生文的场景,由于模型较大一般需要采用分布式推理;而文生图 &文生视频的扩散模型,在大部分场景下使用单卡推理即可,不过随着模型的逐步增大,我们也在支持分布式推理。

压缩方法上也存在一定的差异,文生图 &文生视频扩散模型使用步数蒸馏收益更大,所以蒸馏的优先级会高于其他方法;而在生文场景,量化由于简单高效,优先级最高、之后逐步是蒸馏、投机采样、裁剪稀疏等方法。


InfoQ:目前有哪些可以有效提高模型推理速度和准确度的技术?主要优化思路是什么?

刘凯:并行解码等相关技术都值得一试,其主要思路是通过使用更小的模型或者一次更多的生成 token 数来加快速度,同时使用 base 模型进行结果校验来保证生成的效果。


InfoQ:对腾讯混元大模型来说,端侧推理是一个降低推理成本的好方式吗?是否有可能实现?

刘凯:是的,端侧推理是腾讯混元大模型逐步推进的一个方向。腾讯内部有很多业务适合端侧推理,比如会议、文档、输入法等。


将模型从大化“小”的心得

InfoQ:模型的规模参数大到一定程度后,会产生哪些负面效应?

刘凯:模型参数的持续上升,会带来成本的上升和耗时的增加,同时也给推理优化带来了很大的挑战。首先我们知道大模型推理的瓶颈主要集中在显存和带宽上,为了放下更大的模型,我们需要进行单机多卡、多机多卡的部署。

当使用多机多卡时,带宽就涉及到显存带宽、卡间带宽、网络带宽等三个方面,其速度依次递减,耗时会逐步上升,而部署卡数的上升必然会带来卡成本及配套设备成本的上升。此外,框架 3D 并行能力并非无限制无损扩展,如果超大模型设计的不合理,会使得优化难度成倍上升。

InfoQ:如何在保持性能效果的前提下将大模型做“小”?腾讯有什么好的技术思路分享?

刘凯:模型压缩方法主要包括蒸馏、裁剪、稀疏、量化等。在上述方法中,量化容易实现,是最稳定的,也是各大公司广泛使用的方法。以腾讯混元大模型为例,我们在 Dense 以及 MoE 模型都大规模使用了量化模型,从精度上覆盖了 INT8、FP8、INT4,并在逐步尝试 2bit、1bit 的压缩,目前在范围上已经支持了权重、激活、KV-Cache 的量化。

由于腾讯内部应用场景很多,对模型规模有多样的需求,我们也开发了裁剪+蒸馏的方式来快速扩展模型矩阵,保证各个业务可以使用适合自己的大模型。稀疏这块,其实服务器侧的使用会比较少,但腾讯在这块有持续打磨。除了上述通用方法之外,针对大模型也有一些新的压缩方法,比如文生文当中的 GQA/MQA,并行解码,Cache 方案等;文生图、文生视频的步数蒸馏等。

InfoQ:现实应用中,当落地场景的训练数据未知或不可获得时,如何合理进行模型压缩?

刘凯:针对这个问题我想稍微扩展一下,首先我们知道模型压缩一般分为 Training-Base 和 Training-Free 两种方法,但大模型压缩时我们一般还是建议走 Training-Free 过程,因为大模型的训练过程长、成本高、调参复杂,一般情况不建议去触碰。并且,随着模型规模的增大,无损压缩的难度是减小的,所以使用简单便捷的 Training-Free 的方法比较好。

使用 Training-Free 也需要一些数据进行校准,如果获得不到训练的数据时,我们的建议是通过两种方法解决:1、选取通用数据集的数据进行校准;2、使用大模型生成一定的数据来进行校准。

InfoQ:在即将到来的 AICon 上,您准备向听众分享哪些方面的内容?

刘凯:在即将到来的 AICon 上,我会给大家分享腾讯混元大模型推理框架 Angel-HCF、压缩工具 SNIP 的技术进展以及腾讯混元大模型的落地情况,并针对 GPU 底层优化、服务化能力、压缩算法的优缺点进行剖析,让大家能快速了解大模型推理相关技术。


嘉宾介绍:

刘凯,腾讯高级工程师,腾讯混元大模型推理方向负责人,负责文生文、文生图等大模型压缩优化及推理加速。10 年以上 GPU 高性能优化经验,丰富的深度学习推理框架优化经验。带领团队完成大模型压缩 & 推理框架从 0 到 1 的构建。

   

活动推荐:

AICon全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。


 

会议即将开幕,扫码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

追踪链接:https://sourl.co/faYrKr

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2024-05-15 16:266832

评论

发布
暂无评论

架构师训练营 一致性Hash算法Java实现

Cloud.

最强总结——分布式事务处理方式

小闫

面试 分布式 分布式锁 分布式存储 分布式缓存

【week05】总结

chengjing

公司制的黄昏:区块链重构商业世界

CECBC

区块链思维 裂变 契约 激励

week5 学习总结

Geek_2e7dd7

因为我的一个低级错误,生产数据库崩溃了将近半个小时

鄙人薛某

Java MySQL 数据库 故障定位

第五周总结

武鹏

让你大显身手——掌握RocketMQ与Kafka中如何实现事务

小谈

kafka 面试 RocketMQ JVM原理

一篇文章深入理解分布式锁

itlemon

redis 分布式锁

阿里P7岗位面试,面试官问我:为什么HashMap底层树化的标准元素个数是8

鄙人薛某

Java 面试 hashmap 哈希

深入理解队列:LinkedBlockingQueue源码深度解析

itlemon

阻塞队列 LinkedBlockingQueue Queue

正确的做事比做正确的事更重要

魔曦

架构师 极客大学架构师训练营

码农必备SQL高性能优化指南!35+条优化建议立马get

码哥小胖

MySQL SQL语法 sql查询 sql

最右JS2Flutter框架——开篇(一)

刘剑

flutter 大前端 探索与实践

老龄化时代的人机共生:京东数科以AI机器人推动产业增长

脑极体

20道Redis面试题(含答案)面试官会问的我都找到了

你是人间四月天

redis 面试 Spring Cloud redis6.0.0 Redis项目

Spring Boot 多数据源 Redis 配置

南南

redis 面试 Spring Boot Redis作者

week5

Geek_2e7dd7

这份架构PDF如何得到百度、洋码头、饿了么CTO等大咖联袂推荐?

小新

Java 架构 面试 队列

架构师训练营 - 第 5 周命题作业

红了哟

记录一次拼多多Web前端面试【一面+二面+hr面】

阿文

面试 Spring Cloud Spring Boot Web

Uniapp使用GoEasy实现websocket实时通讯

GoEasy消息推送

uni-app websocket 即时通讯

阿里内推面试,挂在了一道简单的问题上…

小新

Java 阿里巴巴 程序员 架构 面试

搞懂Spring事务失效的8大原因,轻轻松松面试过关

码哥小胖

Java spring Spring Boot

啃碎并发(一):Java线程总述与概念

猿灯塔

【week05作业】

chengjing

架构师训练营 - 第五周命题作业

牛牛

极客大学架构师训练营 命题作业 一致性Hash算法

程序员是这样解读《隐秘的角落》

陈东泽 EuryChen

学习 程序员 隐秘的角落

打造Redis分布式环境下的银弹?我觉得Redisson比Redlock更胜一筹

码农月半

Java redis redis高可用 Redis项目

产业区块链发展迎来爆发期

CECBC

产业区块链 系统稳定性 应用安全性 信任的机器

架构师训练营 - 第 5 周学习总结

红了哟

打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?_生成式 AI_华卫_InfoQ精选文章