
8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!
Google AI Infra 技术专家杨国强已确认出席并发表题为《以卓越性价比释放开放大模型潜能:TPU 上的推理优化全解》的主题分享,本次演讲将探讨如何在 Google Cloud TPU 上,以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性,深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。
演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段,如何实现推理流程的深度调优,从而显著提升模型部署的吞吐效率与响应延迟。

杨国强现任 Google AI Infra 技术专家,拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域,在 AI 应用的训练、推理、跨硬件平台(GPU/TPU 等)部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验,致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下:
演讲提纲:
1、TPU 简介与技术演进
2、理解大模型推理的核心流程
自回归模型的推理过程:Prefill 与 Decode 阶段解析
关键挑战:如何突破延迟瓶颈与吞吐上限?
3、推理框架优化实践:vLLM 与 JetStream 深度调优
vLLM on TPU:自动前缀缓存(APC)、分块预填充、连续批处理的落地
JetStream 与推测解码:提升效率的系统级创新
LLM-d 与 GKE:如何构建分布式推理服务体系
4、性能指标解读与服务优化
如何测量好推理服务?延迟、吞吐、KV Cache 使用率等指标剖析
对比 GKE 推理网关 vs 传统负载均衡的实际效果
5、TPU 硬件特性赋能模型推理
SPMD 并行、SparseCore、Pod 架构下的推理效率优势
Ironwood 带来的最新计算能力与部署选项
6、落地案例与部署总结
文生图场景中延迟下降实践:客户案例分享
部署路径总结:多种方案下的性价比对比与优化建议
听众收益:
全面理解 TPU 架构与演进,掌握其适配开放大模型的核心优势
学会在 TPU 上部署大语言/图像模型的实战优化技巧
掌握推理过程中的关键指标分析方法,并通过 GKE 网关优化推理服务
借助真实案例理解如何兼顾推理性能与成本控制,实现性价比最大化
除此之外,本次大会还策划了AI Infra、AI 产品研发与商业落地探索、Agent 应用新范式与 MCP 生态实践、AI 驱动业务重塑与提效、智能硬件与具身智能创新实践、AI 原生时代的卓越架构治理、、多模态与空间智能技术创新、Agent + Data 落地探索、AI 赋能研发体系变革、Agent 核心技术与系统架构创新、大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。
目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。

评论