AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

Google AI Infra 技术专家杨国强确认出席 AICon 深圳,分享 TPU 上的推理优化全解

  • 2025-08-05
    北京
  • 本文字数:1263 字

    阅读完需:约 4 分钟

大小:685.80K时长:03:54
Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


Google AI Infra 技术专家杨国强已确认出席并发表题为以卓越性价比释放开放大模型潜能:TPU 上的推理优化全解的主题分享,本次演讲将探讨如何在 Google Cloud TPU 上,以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性,深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。


演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段,如何实现推理流程的深度调优,从而显著提升模型部署的吞吐效率与响应延迟。



杨国强现任 Google AI Infra 技术专家,拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域,在 AI 应用的训练、推理、跨硬件平台(GPU/TPU 等)部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验,致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下:


演讲提纲:

1、TPU 简介与技术演进

2、理解大模型推理的核心流程

  • 自回归模型的推理过程:Prefill 与 Decode 阶段解析

  • 关键挑战:如何突破延迟瓶颈与吞吐上限?

3、推理框架优化实践:vLLM 与 JetStream 深度调优

  • vLLM on TPU:自动前缀缓存(APC)、分块预填充、连续批处理的落地

  • JetStream 与推测解码:提升效率的系统级创新

  • LLM-d 与 GKE:如何构建分布式推理服务体系

4、性能指标解读与服务优化

  • 如何测量好推理服务?延迟、吞吐、KV Cache 使用率等指标剖析

  • 对比 GKE 推理网关 vs 传统负载均衡的实际效果

5、TPU 硬件特性赋能模型推理

  • SPMD 并行、SparseCore、Pod 架构下的推理效率优势

  • Ironwood 带来的最新计算能力与部署选项

6、落地案例与部署总结

  • 文生图场景中延迟下降实践:客户案例分享

  • 部署路径总结:多种方案下的性价比对比与优化建议

听众收益:

  • 全面理解 TPU 架构与演进,掌握其适配开放大模型的核心优势

  • 学会在 TPU 上部署大语言/图像模型的实战优化技巧

  • 掌握推理过程中的关键指标分析方法,并通过 GKE 网关优化推理服务

  • 借助真实案例理解如何兼顾推理性能与成本控制,实现性价比最大化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。



2025-08-05 13:001

评论

发布
暂无评论

2024光储充展|太原国际光储充技术装备展会

秋硕展览

展会 光伏展 储能展

Elasticsearch ILM Shrink Action源码优化与探讨

腾讯云大数据

ES

3DCAT携手华为,打造XR虚拟仿真实训实时云渲染解决方案

3DCAT实时渲染

虚拟仿真 实时渲染 CLOUDXR

“创新机制+明星项目”组合拳| Leap Launchpad引领Web3金融服务新风潮2

鳄鱼视界

一文学会List函数排序操作,20秒即可完成!

飞算JavaAI开发助手

VS Code 的 launch.json 进行高效代码调试:配置和原理解析

麦田的守望者

SAST工具编译命令捕获及参数处理实现

maijun

C++的基类和派生类构造函数

芯动大师

聊聊Http服务化改造实践

树上有只程序猿

微服务架构 HTTP Feign

深入MaxCompute -第十二弹 -PIVOT/UNPIVOT

阿里云大数据AI技术

大数据

华为云828营销季火热进行中,3大热门产品助力中小企业云上成长

平平无奇爱好科技

MySQL索引,为什么索引会失效呢?

程序员万金游

MySQL Java'

Kubernetes实现微服务容器化

雾岛听风(锋)

微服务 k8s 容器化

“云渲染”,电影特效背后的技术

Finovy Cloud

云计算 渲染 云渲染

IAM携手华为,创新科技解锁空净新标准

新消费日报

【华为云828企业节上福利】软件开发工具升级版免费套餐重磅上线

平平无奇爱好科技

博睿数据当选粤港澳大湾区金融创新研究院理事会单位,助力金融科技创新发展

博睿数据

博睿数据

易点天下受邀参与华为云印度尼西亚CXO-Camp 共探产业数字化转型新路径

新消费日报

深度解读智能媒体服务的重组和进化

阿里云CloudImagine

云计算 视频云

LeetCode题解:7. 整数反转,数组反转,JavaScript,详细注释

Lee Chen

JavaScript LeetCode

物联网时序数据库 IoTDB 荣获清华校友三创大赛总决赛最高奖

Apache IoTDB

基于Vue前端框架构建BI应用程序

互联网工科生

Vue 低代码 BI 分析工具

“创新机制+明星项目”组合拳| Leap Launchpad引领Web3金融服务新风潮

股市老人

Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章