写点什么

超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海

  • 2025-04-27
    北京
  • 本文字数:1039 字

    阅读完需:约 3 分钟

大小:582.02K时长:03:18
超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


阿里云技术专家李元龙已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《超越算力瓶颈,大模型推理的跨层优化前沿实践》的主题分享。本次演讲将逐层解析大模型推理的核心技术,从模型代码讲解 Transformer 前向传播的核心流程与关键模块设计;框架层解读主流推理引擎(如 vLLM/TensorRT)的加速原理与适用场景;深度学习框架揭示 PyTorch 动态图编译、算子优化等底层支持技术;硬件加速剖析 CUDA 并行计算与内存优化策略;最后结合 GPU 特性分析不同硬件对推理性能的影响规律,提供从代码优化到硬件选型的全链路实践指南,帮助开发者快速构建高效推理方案。


李元龙是中山大学博士,大模型技术专家,就职于阿里云。负责大模型在 B 端客户的算法应用场景方案设计实现,落地及优化。具有丰富的 AI,机器学习 &优化算法技术研究 &生产落地经验,目前专注于各类模型的训练推理技术,结合底层算力技术的研究和优化。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理技术全景

  • 技术演进脉络

  • 分层技术体系

  • 垂直分层:模型架构层→框架调度层→计算图优化层→硬件指令层

  • 横向协同:算法-框架-硬件的联合优化范式

2. 模型架构层的推理优化

  • 前沿架构优化技术

  • 动态计算图优化(DeepSeek 的 Dynamic Token 机制)

  • 稀疏激活模式(Mixtral 的 MoE 门控策略)

  • 计算-通信重叠(LLAMA 的预取策略)

3. 推理框架层的加速革命

  • 框架技术矩阵分析

  • 框架选型决策树

4. 计算图编译层的深度优化

  • Torch2.x 编译技术栈

  • 编译实践陷阱

5. 硬件层的极限压榨

  • CUDA 加速范式

  • GPU 选型决策模型

6. 总结与展望


听众收益:

  • 为听众提供简明扼要的推理部署优化指南,使用户快速找到适合自己场景的模型推理部署策略

  • 了解最前沿的推理优化技术和技术局限性


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-27 14:004950

评论

发布
暂无评论

vue组件通信6种方式总结(常问知识点)

bb_xiaxia1998

Vue

chrome调试工具之Console

格斗家不爱在外太空沉思

浏览器 浏览器测试 11月月更

高频js笔试题看这一篇就够了

helloworld1024fd

JavaScript

React-Hook最佳实践

xiaofeng

React

知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

汀丶人工智能

nlp 知识蒸馏 11月月更

React源码分析4-深度理解diff算法

goClient1992

React

React源码分析2-深入理解fiber

goClient1992

React

计算机网络:数据链路层功能

timerring

计算机网络 11月月更 数据链路层

读懂React原理之调和与Fiber

xiaofeng

React

ElasticSearch这些坑记得避开

Java 架构

从零到一手写迷你版Vue

helloworld1024fd

JavaScript

chrome调试工具之Sources

格斗家不爱在外太空沉思

浏览器 浏览器测试 11月月更

这可能是你需要的React实战技巧

夏天的味道123

React

华为云从入门到实战 | 云速建站服务与企业主机安全服务

TiAmo

华为 华为云 11月月更

决策树-泰坦尼克号幸存者预测

烧灯续昼2002

Python 机器学习 算法 sklearn 11月月更

React源码分析3-render阶段(穿插scheduler和reconciler)

goClient1992

React

从纯函数讲起,一窥最深刻的函子 Monad

掘金安东尼

前端 11月月更

vue组件通信方式有哪些?

bb_xiaxia1998

Vue

说说前端经常考的手写题

helloworld1024fd

JavaScript

通俗易懂的React事件系统工作原理

夏天的味道123

React

详解React的Transition工作原理原理

夏天的味道123

React

chrome调试工具之Elements

格斗家不爱在外太空沉思

浏览器 11月月更 elements

一步步实现React-Hooks核心原理

helloworld1024fd

JavaScript

数据中台的最后一公里:数据服务

元年技术洞察

数据中台 中台 DaaS

Spring Boot 实现接口幂等性的 4 种方案

小小怪下士

Java spring springboot

一大波vue面试题及答案精心整理

bb_xiaxia1998

Vue

React源码解读之React Fiber

flyzz177

React

ReactDOM.render在react源码中执行之后发生了什么?

flyzz177

React

Istio Ambient Mesh七层服务治理图文详解

华为云开发者联盟

云原生 后端 华为云 企业号十月 PK 榜

百度前端react面试题总结

beifeng1996

React

React Context源码是怎么实现的呢

flyzz177

React

超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章