Google AI Infra 技术专家杨国强确认出席AICon 深圳，分享TPU 上的推理优化全解_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章

AICon 深圳站 Keynote 嘉宾官宣！共探AI价值转化的实践路径了解详情 



 写点什么

登录/注册



大小：685.80K时长：03:54

Google AI Infra 技术专家杨国强确认出席AICon 深圳，分享TPU 上的推理优化全解

8 月 22 日 -23 日，首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家，分享 AI 落地实战经验。一起探索 AI 应用的更多可能，发掘 AI 驱动业务增长的新路径！

Google AI Infra 技术专家杨国强已确认出席并发表题为《以卓越性价比释放开放大模型潜能：TPU 上的推理优化全解》的主题分享，本次演讲将探讨如何在 Google Cloud TPU 上，以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性，深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。

演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段，如何实现推理流程的深度调优，从而显著提升模型部署的吞吐效率与响应延迟。

杨国强现任 Google AI Infra 技术专家，拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域，在 AI 应用的训练、推理、跨硬件平台（GPU/TPU 等）部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验，致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下：

演讲提纲：

1、TPU 简介与技术演进

2、理解大模型推理的核心流程

自回归模型的推理过程：Prefill 与 Decode 阶段解析
关键挑战：如何突破延迟瓶颈与吞吐上限？

3、推理框架优化实践：vLLM 与 JetStream 深度调优

vLLM on TPU：自动前缀缓存（APC）、分块预填充、连续批处理的落地
JetStream 与推测解码：提升效率的系统级创新
LLM-d 与 GKE：如何构建分布式推理服务体系

4、性能指标解读与服务优化

如何测量好推理服务？延迟、吞吐、KV Cache 使用率等指标剖析
对比 GKE 推理网关 vs 传统负载均衡的实际效果

5、TPU 硬件特性赋能模型推理

SPMD 并行、SparseCore、Pod 架构下的推理效率优势
Ironwood 带来的最新计算能力与部署选项

6、落地案例与部署总结

文生图场景中延迟下降实践：客户案例分享
部署路径总结：多种方案下的性价比对比与优化建议

听众收益：

全面理解 TPU 架构与演进，掌握其适配开放大模型的核心优势
学会在 TPU 上部署大语言/图像模型的实战优化技巧
掌握推理过程中的关键指标分析方法，并通过 GKE 网关优化推理服务
借助真实案例理解如何兼顾推理性能与成本控制，实现性价比最大化

除此之外，本次大会还策划了AI Infra、AI 产品研发与商业落地探索、Agent 应用新范式与 MCP 生态实践、AI 驱动业务重塑与提效、智能硬件与具身智能创新实践、AI 原生时代的卓越架构治理、、多模态与空间智能技术创新、Agent + Data 落地探索、AI 赋能研发体系变革、Agent 核心技术与系统架构创新、大模型在金融领域的创新实践等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。

目前，所有大会演讲嘉宾已结集完毕，了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。

评论

发布

暂无评论

2024光储充展|太原国际光储充技术装备展会

展会光伏展储能展

Elasticsearch ILM Shrink Action源码优化与探讨

腾讯云大数据

3DCAT携手华为，打造XR虚拟仿真实训实时云渲染解决方案

3DCAT实时渲染

虚拟仿真实时渲染 CLOUDXR

“创新机制+明星项目”组合拳｜ Leap Launchpad引领Web3金融服务新风潮2

一文学会List函数排序操作，20秒即可完成！

飞算JavaAI开发助手

VS Code 的 launch.json 进行高效代码调试：配置和原理解析

麦田的守望者

SAST工具编译命令捕获及参数处理实现

C++的基类和派生类构造函数

聊聊Http服务化改造实践

树上有只程序猿

微服务架构 HTTP Feign

深入MaxCompute -第十二弹 -PIVOT/UNPIVOT

阿里云大数据AI技术

华为云828营销季火热进行中，3大热门产品助力中小企业云上成长

平平无奇爱好科技

MySQL索引，为什么索引会失效呢？

程序员万金游

Kubernetes实现微服务容器化

雾岛听风（锋）

微服务 k8s 容器化

“云渲染”，电影特效背后的技术

云计算云渲染云渲染

IAM携手华为，创新科技解锁空净新标准

新消费日报

【华为云828企业节上福利】软件开发工具升级版免费套餐重磅上线

平平无奇爱好科技

博睿数据当选粤港澳大湾区金融创新研究院理事会单位，助力金融科技创新发展

易点天下受邀参与华为云印度尼西亚CXO-Camp 共探产业数字化转型新路径

新消费日报

深度解读智能媒体服务的重组和进化

阿里云CloudImagine

云计算视频云

LeetCode题解：7. 整数反转，数组反转，JavaScript，详细注释

JavaScript LeetCode

物联网时序数据库 IoTDB 荣获清华校友三创大赛总决赛最高奖

基于Vue前端框架构建BI应用程序

互联网工科生

Vue 低代码 BI 分析工具

“创新机制+明星项目”组合拳｜ Leap Launchpad引领Web3金融服务新风潮