10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:965 字

    阅读完需:约 3 分钟

大小:537.93K时长:03:03
腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


腾讯推理架构师向乾彪已确认出席 AICon 上海并在大模型推理性能优化策略专题发表题为《腾讯混元 AngelHCF 推理加速框架优化实践》的主题分享。腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑了元宝线上混元模型上万卡推理。同时,AngelHCF 于 24 年初即大规模部署上线了万亿 MoE 大模型,针对大规模 MoE 模型通信特点做了混合切分策略优化,叠加模型压缩、PD 分离等优化手段,显著降低了线上推理成本。本次分享将从不同角度分别介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化,结合全新的 Turbos 模型结构,希望能给听众带来一些新的启发。


向乾彪聚焦于 GPU 推理加速技术多年,在性能优化、高性能异构计算等方面积累了丰富的经验,目前主要负责混元大语言模型推理加速框架 AngelHCF,涉及算子、通信、架构等多方面优化。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 腾讯混元模型 & AngelHCF 推理加速框架概述

2. 混元 Turbos Hybrid 推理优化

  • Mamba Hybrid 模型的推理优势及收益

  • kernel 精度以及性能调优

  • 显存 & KVCache 优化之路

3. 超大规模 MoE 模型并行策略优化

  • 各种模型切分策略的优缺点

  • 模型并行融合策略

  • 通信优化

4. PD 分离部署优化

  • PD 分离部署的优势

  • 请求智能调度策略

  • 计算通信 Overlap

5. 腾讯混元 & AngelHCF 落地情况和展望


听众收益:

  • 了解混元 Turbos Hybrid 结构带来的性能收益以及推理优化手段

  • 了解大规模 MoE 语言模型推理加速具体方法 &实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 15:008308

评论

发布
暂无评论
发现更多内容

ZooKeeper 分布式锁 Curator 源码 03:可重入锁并发加锁

程序员小航

Java zookeeper 源码 分布式锁 zookeeper分布式锁

阿里培训笔记惨遭泄露,Spring+SpringBoot+SpringCloud

Java架构师迁哥

上架一夜遭全网封杀!阿里大牛熬夜半年手码的Java面试指南太强了

白亦杨

敏捷教练的困境与出路:一个管理者的视角

蔡建斌

管理 技术管理 敏捷教练 引航计划 内容合集

没想到专科的我,仅凭阿里这份JDK源码笔记居然拿到了年薪30W的offer

Java架构师迁哥

linux c解决多个第三方so动态库包含不同版本openssl造成的符号冲突

奔着腾讯去

openssl so动态库 动态链接库

网络协议:TCP可靠传输原理

赖猫

c++ TCP 后端 网络协议

网络传输协议kcp原理解析

赖猫

TCP 网络协议

和12岁小同志搞创客开发:如何使用继电器?

不脱发的程序猿

DIY 嵌入式 创客开发 继电器

hbase运维故障案例分析

GrowingIO技术专栏

大数据 运维 HBase

上架一夜遭全网封杀!阿里大牛熬夜半年手码的Java面试指南太强了

Java 编程 程序员 架构师

week 9 作业

Geek_2e7dd7

架构实战营

阿那亚:靠客户反馈驱动企业成长

石云升

商业价值 服务 7月日更

巧用 readonly与 const

喵叔

7月日更

一个很多人不知道的SpringBoot小技能!!

冰河

Java 分布式 微服务 springboot 服务化

性能测试误差对比研究(四)

FunTester

性能测试 接口测试 测试框架 测试开发 误差分析

并发问题的源头

Java旅程

Java 并发编程

23w字!Github一夜爆火被各大厂要求直接下架的Java面试题库也太强了

Java架构师迁哥

结构化流-Structured Streaming(八-中)

Databri_AI

spark 结构化思维 Kafk

VSCode 断点调试 electron-vue 主进程

admin

Vue 调试 Electron

性能测试误差对比研究(三)

FunTester

性能测试 接口测试 测试框架 误差分析

没有电和网络的时候如何支付一瓶水?

escray

学习 极客时间 朱赟的技术管理课 7月日更

C++17 中的条件变量

hedzr

c++ 算法 并发编程 元编程 policy

登陆框有多危险,可能你还不知道。。。

网络安全学海

黑客 网络安全 信息安全 渗透测试· 漏洞分析

iOS15上线图片翻译功能,能取代专业翻译软件吗?

脑极体

后疫情时代,共享育儿也能变成一门好生意?!

脑极体

BoCloud博云:ESB老旧力不能支,微服务独立自治强势替代

BoCloud博云

微服务

String、StringBuiler和StringBuffer面试那些事

Java旅程

Java 并发

maven是什么

卢卡多多

7月日更

postgresql主从搭建

阿呆

postgresql

gitlab忘记root用户的密码

阿呆

gitlab #GitLab

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章