
如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!
10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!
无问芯穹总经理曾书霖博士已确认出席并发表题为《AI 2.0 时代的大模型推理:从模型到硬件的协同优化》的主题分享,探讨 AI 2.0 模型对算力和数据的需求激增,导致硬件系统的能耗开销逐渐“供不应求”,亟需软硬协同为 AI 行业提供高质量的 AI 系统能效( Tokens/J) 。本次演讲将介绍软硬件协同优化以提升智能系统能效的研究成果,包括模型稀疏量化压缩、高效推理系统设计与大模型加速器设计。并且结合华为昇腾集群的工程实践,探讨下一代 AI 推理系统的演进趋势。

曾书霖,上海无问芯穹智能科技有限公司总经理。于 2018 年和 2023 年在清华大学电子工程系获得工学学士和博士学位,师从清华大学电子工程系系主任、IEEE Fellow 汪玉教授,研究领域为软硬协同优化研究和 AI 加速器设计。在相关领域发表高水平国际会议和期刊论文 20 余篇,谷歌学术施引九百余次,包括以第一作者或共同一作发表高水平论文于可重构计算领域旗舰会议( FPGA · 25, FPGA · 24)、体系结构领域顶级会议 (HPCA · 25, MICRO · 23)、以及顶级期刊 IEEE TC、ACM TRETS 等。曾获 FPGA 2025 会议最佳论文奖( FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,也是亚太国家团队首次获此殊荣)、IEEE TC 2023 Featured Paper of the Month、清华大学研究生国家奖学金等。在创新创业方面,作为创始成员参与创立上海无问芯穹智能科技有限公司,并作为智能终端业务负责人,带领团队打造“端模型 + 端软件 + 端 IP ”的智能终端一体化解决方案。他在本次会议的详细演讲内容如下:
演讲提纲
1. 大模型推理从 Token 到价值
人工智能发展历程回顾
Tokens 作为生产要素的关键
Tokens 实现产业价值的分析
2. 大模型推理的软硬件协同优化层次
能效指标的变化
AI 2.0 的关键指标:高质量 Tokens/J
高质量能效优化的现状与路径
人工智能软硬件分层
3. 多层次优化技术
模型压缩:混合量化与稀疏注意力
推理加速:PD 半融合加速范式与投机早退加速
硬件架构:文生文与文生视频加速器
4. 华为昇腾大模型推理加速实践
现状与挑战
工程实践
未来展望
您认为,这样的技术在实践过程中有哪些痛点?
模型规模激增与硬件算力、能效矛盾加剧
软件栈与硬件特性难以对齐,工程落地复杂
演讲亮点
首提“ 高质量 Tokens/J ”指标,重塑能效评价体系
从模型、系统到硬件的全栈协同优化实践
听众收益
掌握提升大模型推理能效的系统性方法
了解 AI 推理能效的演进方向,提前布局系统架构升级
除此之外,本次大会还策划了多模态融合技术与创新应用、混沌工程与全链路压测实践、Data Infra for AI、Agentic AI、加速与反哺:AI 时代的可观测实践、Vibe Coding、端侧大模型的创新与应用、大模型推理的工程实践、AI 搜索技术的深水区、模型训练与微调、具身智能:当 AI 学会“动手思考”、大模型驱动的制造革命、AI4SE:软件研发提质增效实践、AI 重塑视觉创作体验、从“炫技”走向“实用”的 AI 产品、大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。

评论