写点什么

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

  • 2025-04-25
    北京
  • 本文字数:965 字

    阅读完需:约 3 分钟

大小:537.93K时长:03:03
腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


腾讯推理架构师向乾彪已确认出席 AICon 上海并在大模型推理性能优化策略专题发表题为《腾讯混元 AngelHCF 推理加速框架优化实践》的主题分享。腾讯 AngelHCF 推理加速框架针对混元 LLM 大语言模型做了深度推理优化,结合全新的 Hybrid 模型结构整体上取得了不错的推理成本优势,支撑了元宝线上混元模型上万卡推理。同时,AngelHCF 于 24 年初即大规模部署上线了万亿 MoE 大模型,针对大规模 MoE 模型通信特点做了混合切分策略优化,叠加模型压缩、PD 分离等优化手段,显著降低了线上推理成本。本次分享将从不同角度分别介绍腾讯混元推理加速框架 AngelHCF 所做的一些针对性优化,结合全新的 Turbos 模型结构,希望能给听众带来一些新的启发。


向乾彪聚焦于 GPU 推理加速技术多年,在性能优化、高性能异构计算等方面积累了丰富的经验,目前主要负责混元大语言模型推理加速框架 AngelHCF,涉及算子、通信、架构等多方面优化。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 腾讯混元模型 & AngelHCF 推理加速框架概述

2. 混元 Turbos Hybrid 推理优化

  • Mamba Hybrid 模型的推理优势及收益

  • kernel 精度以及性能调优

  • 显存 & KVCache 优化之路

3. 超大规模 MoE 模型并行策略优化

  • 各种模型切分策略的优缺点

  • 模型并行融合策略

  • 通信优化

4. PD 分离部署优化

  • PD 分离部署的优势

  • 请求智能调度策略

  • 计算通信 Overlap

5. 腾讯混元 & AngelHCF 落地情况和展望


听众收益:

  • 了解混元 Turbos Hybrid 结构带来的性能收益以及推理优化手段

  • 了解大规模 MoE 语言模型推理加速具体方法 &实践


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-25 15:008578

评论

发布
暂无评论
发现更多内容

四款你必须知道的前端开发工具

编程江湖

加入科学计算SIG,挑战最前沿的AI+Science研发与创新

百度开发者中心

百度AI

动态加载不适合数组类?那如何动态加载一个数组类?

华为云开发者联盟

Java 数组 动态加载 数组类

会声会影如何制作视频影片-影片制作过程三步骤

懒得勤快

Linux系统编程-(pthread)线程创建与使用

DS小龙哥

线程 2月月更

2021 年软件安全报告:代码开源,福“祸”相依?

腾源会

开源 安全

Linux系统编程-(pthread)线程通信(读写锁)

DS小龙哥

2月月更

Linux系统编程-(pthread)线程通信(围栏机制)

DS小龙哥

2月月更 围栏机制

资讯|WebRTC M97 更新

网易云信

WebRTC

从小样本学习出发,奔向星辰大海

百度开发者中心

百度云 百度 飞桨

浪潮云说丨上云迁移实践

云计算,

一站式交付体验:云效+Kubernetes

阿里云云效

阿里云 Kubernetes 云原生 持续交付 一站式平台

对话 SphereEx 创始人张亮:开源与商业并行 做时间越久越有价值的事情

SphereEx

某 E-Office v9 任意文件上传【漏洞复现实战】

H

网络安全 漏洞

Linux系统编程-(pthread)线程通信(条件变量)

DS小龙哥

2月月更

DevOps进阶(一):DevOps 软件开发工艺解读

No Silver Bullet

DevOps 2月月更

百度AICA再添57位“首席AI架构师”,人工智能与产业场景结合愈发深入

百度开发者中心

飞桨 百度AI

百度智能云开物再收“一个奖状”

百度开发者中心

工业互联网 百度智能云 百度智能云开物

Java培训:封装的含义及实现方式

@零度

JAVA开发 封装

虎符交易所Hoo研究院:Open Sea上大火的NFT项目—Azuki

区块链前沿News

NFT Hoo 虎符交易所 Azuki

AMD EPYC服务器芯片将涨价10%~30%

BeeWorks

抓到Netty一个Bug,顺带来透彻地聊一下Netty是如何高效接收网络连接的

bin的技术小屋

网络编程 中间件 netty 死磕 NIO Java【

Linux系统-Makefile规则介绍、基本使用

DS小龙哥

Linux makefile 2月月更

Linux系统编程-(pthread)线程通信(互斥锁)

DS小龙哥

互斥锁 2月月更

像搭积木一样定制系统,这家公司正瞄准数据库做增值服务

SphereEx

移动办公时代,政企为何首选私有化的即时通讯平台?

BeeWorks

Kafka消息存储机制

编程江湖

IAST 最佳实践 | 利用洞态做开源组件的安全治理

火线安全

GIF 格式解析之表情包是如何动起来的

CRMEB

腾讯混元 AngelHCF 推理加速框架优化实践|AICon 上海_架构_AICon 全球人工智能开发与应用大会_InfoQ精选文章