10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

一念 LLM 分布式推理优化实践

  • 2025-08-01
    北京
  • 本文字数:842 字

    阅读完需:约 3 分钟

大小:471.49K时长:02:40
一念 LLM 分布式推理优化实践

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


腾讯公司专家工程师袁镱已确认出席并发表题为一念 LLM 分布式推理优化实践的主题分享,介绍基于大模型推理基本原理,结合 MoE 类模型特性,一念 LLM 设计了一套高效分布式推理优化方案。围绕流水线并行、显存管理、以及 DP/TP/PP 混合并行策略,实现了对推理过程的深度调优。在 DeepSeek 推理测试中,相较于业界主流开源推理框架,整体吞吐性能提升达 48%。



袁镱是腾讯 PCG 机器学习平台技术负责人,负责无量系统和一念 LLM 等机器学习训练和推理框架研发。他在本次会议的详细演讲内容如下:


演讲提纲:

1、大模型推理的挑战

  • 大模型推理的基本逻辑

  • 各个推理加速框架的设计思路对比

2、大模型分布式推理的主要优化技术

  • DP/EP 等并行技术与 MoE 模型的特点

3、一念 LLM 的设计与优化

  • 一念 LLM 的设计思路和主要优化方向

  • 一念 LLM 针对 DeepSeek 特点进行的性能优化

听众收益:

  • 了解大模型推理的基本逻辑以及各个推理加速框架的设计思路对比

  • 了解一念 LLM 的设计思路,以及针对 DeepSeek 特点进行的性能优化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


大会 9 折优惠倒计时最后 1 天,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-08-01 13:007200

评论

发布
暂无评论

直播指南!解锁 OceanBase DevCon • 2023

OceanBase 数据库

数据库 oceanbase

软件测试/测试开发丨app自动化测试之设备交互API详解

测试人

软件测试 自动化测试 测试开发 appium

从DPU角度,谈谈关于国产OS开源社区发展的思考

大禹智芯

DPU 国产OS开源社区

动手实践开发一个智慧路灯控制器

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟 企业号 3 月 PK 榜

快速开始高性能Elasticsearch客户端bboss

大河

elasticsearch java bboss restclient

爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出丨开源

Openlab_cosmoplat

开源社区 AI绘画

选择KV数据库最重要的是什么

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Apache HugeGraph1.0.0 版本正式发布!

百度安全

AutoCAD安装失败,提示错误“Error 112”和安装进度条倒退为0

互联网搬砖工作者

HUAWEI Mate X3带来全新小艺输入法, 9键双键盘左右开工、语音悬浮气泡免干扰

最新动态

ChatGPT4 给出数据库开发者最容易犯的10个错误和解决方案

NineData

数据库 程序员 开发者 dba ChatGPT

数据采集&流批一体化处理使用指南

大河

批处理 ETL 流处理 bboss 流批一体化

测试同学职场成长的关键要素

老张

团队管理 个人成长

Springboot 撞上 NebulaGraph——NGbatis 初体验

NebulaGraph

Java ORM 图数据库

信息抓包工具:Charles 激活版

真大的脸盆

Mac Mac 软件 抓包工具 信息抓包

Dragonfly 最新版本 v2.0.9 发布

SOFAStack

开源 互联网 开发者 开发

4.0 功能抢先看 | 读懂一个项目的研发效能 之 项目交付效率

思码逸研发效能

研发效能

集成化、小型化、大势所趋,模块电源优势明显

华秋电子

2023年,LED显示屏配套设备急需升级和优化

Dylan

产品 制造 LED显示屏

用这三本书,探究 ChatGPT 的底层逻辑

图灵教育

深度学习 GPT #人工智能 ChatGPT

文本数据标注,支持词典导入及更多快捷方式|ModelWhale 版本更新

ModelWhale

机器学习 数据分析 云平台 标注 标注工具

喜讯!华秋电子荣登“2022年中国产业互联网百强企业”榜单

华秋电子

流量调度、微服务可寻址性和注册中心

有态度的马甲

photoshop 2023存储为窗口显示空白、黑屏如何解决

互联网搬砖工作者

用138个案例讲明白了Spring全家桶+Docker+MQ

Java你猿哥

spring 面试 Spring Cloud Spring Boot 面经

分享:如何给 DBA 减负?

OceanBase 数据库

数据库 oceanbase

用这三本书,探究 ChatGPT 的底层逻辑

图灵社区

深度学习 GPT #人工智能 ChatGPT

分享:FactorJoin,一种新的连接查询基数估计框架

OceanBase 数据库

数据库 oceanbase

Web前端设计开发工具集(JS框架、CSS预处理)

2D3D前端可视化开发

前端开发 代码编辑器 css预处理器 web前端开发 前端开发工具

一念 LLM 分布式推理优化实践_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章