
5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。
阿里云技术专家李元龙已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《超越算力瓶颈,大模型推理的跨层优化前沿实践》的主题分享。本次演讲将逐层解析大模型推理的核心技术,从模型代码讲解 Transformer 前向传播的核心流程与关键模块设计;框架层解读主流推理引擎(如 vLLM/TensorRT)的加速原理与适用场景;深度学习框架揭示 PyTorch 动态图编译、算子优化等底层支持技术;硬件加速剖析 CUDA 并行计算与内存优化策略;最后结合 GPU 特性分析不同硬件对推理性能的影响规律,提供从代码优化到硬件选型的全链路实践指南,帮助开发者快速构建高效推理方案。
李元龙是中山大学博士,大模型技术专家,就职于阿里云。负责大模型在 B 端客户的算法应用场景方案设计实现,落地及优化。具有丰富的 AI,机器学习 &优化算法技术研究 &生产落地经验,目前专注于各类模型的训练推理技术,结合底层算力技术的研究和优化。他在本次会议的详细演讲内容如下:
演讲提纲:
1. 大模型推理技术全景
技术演进脉络
分层技术体系
垂直分层:模型架构层→框架调度层→计算图优化层→硬件指令层
横向协同:算法-框架-硬件的联合优化范式
2. 模型架构层的推理优化
前沿架构优化技术
动态计算图优化(DeepSeek 的 Dynamic Token 机制)
稀疏激活模式(Mixtral 的 MoE 门控策略)
计算-通信重叠(LLAMA 的预取策略)
3. 推理框架层的加速革命
框架技术矩阵分析
框架选型决策树
4. 计算图编译层的深度优化
Torch2.x 编译技术栈
编译实践陷阱
5. 硬件层的极限压榨
CUDA 加速范式
GPU 选型决策模型
6. 总结与展望
听众收益:
为听众提供简明扼要的推理部署优化指南,使用户快速找到适合自己场景的模型推理部署策略
了解最前沿的推理优化技术和技术局限性
除此之外,本次大会还策划了AI Agent 构建及多元应用、多模态大模型创新实践、AI for Data,数据管理与价值挖掘实践、大模型推理性能优化策略、AI 产品设计的创新思维、智能硬件与大模型的融合探索、金融领域大模型应用实践、大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论