写点什么

超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海

  • 2025-04-27
    北京
  • 本文字数:1039 字

    阅读完需:约 3 分钟

大小:582.02K时长:03:18
超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海

5 月 23 日-24 日,AICon 全球人工智能开发与应用大会上海站即将拉开帷幕。本次大会将聚焦 AI 技术的前沿突破与产业落地,围绕 AI Agent、多模态应用、大模型架构创新、推理性能优化、大模型驱动数据创新、AI 产品创新与出海策略等核心议题,呈现技术与应用融合的最新趋势。


阿里云技术专家李元龙已确认出席 AICon 上海并将在大模型推理性能优化策略专题发表题为《超越算力瓶颈,大模型推理的跨层优化前沿实践》的主题分享。本次演讲将逐层解析大模型推理的核心技术,从模型代码讲解 Transformer 前向传播的核心流程与关键模块设计;框架层解读主流推理引擎(如 vLLM/TensorRT)的加速原理与适用场景;深度学习框架揭示 PyTorch 动态图编译、算子优化等底层支持技术;硬件加速剖析 CUDA 并行计算与内存优化策略;最后结合 GPU 特性分析不同硬件对推理性能的影响规律,提供从代码优化到硬件选型的全链路实践指南,帮助开发者快速构建高效推理方案。


李元龙是中山大学博士,大模型技术专家,就职于阿里云。负责大模型在 B 端客户的算法应用场景方案设计实现,落地及优化。具有丰富的 AI,机器学习 &优化算法技术研究 &生产落地经验,目前专注于各类模型的训练推理技术,结合底层算力技术的研究和优化。他在本次会议的详细演讲内容如下:


演讲提纲:

1. 大模型推理技术全景

  • 技术演进脉络

  • 分层技术体系

  • 垂直分层:模型架构层→框架调度层→计算图优化层→硬件指令层

  • 横向协同:算法-框架-硬件的联合优化范式

2. 模型架构层的推理优化

  • 前沿架构优化技术

  • 动态计算图优化(DeepSeek 的 Dynamic Token 机制)

  • 稀疏激活模式(Mixtral 的 MoE 门控策略)

  • 计算-通信重叠(LLAMA 的预取策略)

3. 推理框架层的加速革命

  • 框架技术矩阵分析

  • 框架选型决策树

4. 计算图编译层的深度优化

  • Torch2.x 编译技术栈

  • 编译实践陷阱

5. 硬件层的极限压榨

  • CUDA 加速范式

  • GPU 选型决策模型

6. 总结与展望


听众收益:

  • 为听众提供简明扼要的推理部署优化指南,使用户快速找到适合自己场景的模型推理部署策略

  • 了解最前沿的推理优化技术和技术局限性


除此之外,本次大会还策划了AI Agent 构建及多元应用多模态大模型创新实践AI for Data,数据管理与价值挖掘实践大模型推理性能优化策略AI 产品设计的创新思维智能硬件与大模型的融合探索金融领域大模型应用实践大模型助力业务提效实践等专题,届时将有来自不同行业、不同领域、不同企业的 60+资深专家在 AICon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-04-27 14:001

评论

发布
暂无评论

Web3时代到来,腾讯云助力产业提效和互联网创新

科技热闻

嘉为蓝鲸WeOps荣获“2022年度行业科技创新产品”

嘉为蓝鲸

运维 嘉为蓝鲸 #WeOps

CleanMyMac X2023第三方mac系统清理软件

茶色酒

CleanMyMac X CleanMyMac X2023

深入理解Redis 数据结构—字典

Jeremy Lai

字典 redis 底层原理

应用瓴羊Quick BI数据分析,实时掌控企业运营数据

对不起该用户已成仙‖

腾讯发布数字政务核心产品体系,多方位助力政府数字化转型

科技热闻

EMQ助力阿里云飞天洛神云网络构建新一代“亿级并发、百万级吞吐”NLB网络型负载均衡系统

EMQ映云科技

阿里云 物联网 IoT mqtt 12 月 PK 榜

一图读懂《2022 年中国政企数智办公平台行业研究报告》

融云 RongCloud

办公 数智化 图论

MySQL更新锁表超时 Lock wait timeout exceeded

Jeremy Lai

事务隔离 Mysql死锁

融云&艾瑞发布《政企数智办公平台行业研究报告》,解读数智化时代的办公新趋势

融云 RongCloud

即时通讯 办公 数智化

PID和TID的区别

源字节1号

软件开发 前端开发 后端开发 小程序开发

嘉为蓝鲸IT服务管理中心V3.0正式发布,实现IT服务管理体系新升级!

嘉为蓝鲸

运维 嘉为蓝鲸 IT服务

字节一面:说说TCP的三次握手

Jeremy Lai

三次握手 TCP协议

手把手教你用Java获取IP归属地

Jeremy Lai

IP地址

Seata 环境搭建

Jeremy Lai

分布式事务 seata

友元、异常和其他

Maybe_fl

详解MySQL隔离级别

Jeremy Lai

隔离级别

Spring Cloud 整合 nacos 实现动态配置中心

Jeremy Lai

nacos 动态配置

超简单的CDH6部署和体验(单机版)

程序员欣宸

大数据 hadoop CDH 12月月更

1-5-10 快恢在数字化安全生产平台 DPS 中的设计与落地

阿里巴巴云原生

阿里云 云原生 数字化安全生产平台

后端程序员实现一个IP归属地的小程序

Jeremy Lai

AI 作画领域中的“神笔马良”是怎样炼成的?

行者AI

2022腾讯Techo前沿技术论坛召开,六位科学家分享前沿科学成果

科技热闻

MySQL索引的底层数据结构原理剖析(二叉树、 红黑树、Hash、B-Tree、B+Tree)

C++后台开发

MySQL 数据结构 后端开发 底层原理 C++开发

小程序正式版报错600002 url not in domain list

Jeremy Lai

小程序

干货 | 五大关键点,帮助企业快速构建可落地的IT服务管理体系

嘉为蓝鲸

运维 嘉为蓝鲸 IT服务

腾讯云升级云端 IDE Cloud Studio,助力开发“化繁为简”

科技热闻

商务部研究院信用所、启信宝联合发布《中国商务信用发展指数报告(2022)》

合合技术团队

人工智能 大数据 商业

阿里云ECS后台CPU占用100%,top却找不到

Jeremy Lai

cpu 100% 阿里云;

中国视频云进入“出海”时代,腾讯云音视频发布海外专门品牌及新产品

科技热闻

干货 | 企业如何快速采集分析日志?

嘉为蓝鲸

运维 嘉为蓝鲸

超越算力瓶颈,大模型推理的跨层优化前沿实践|AICon 上海_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章