写点什么

Google AI Infra 技术专家杨国强确认出席 AICon 深圳,分享 TPU 上的推理优化全解

  • 2025-08-05
    北京
  • 本文字数:1263 字

    阅读完需:约 4 分钟

大小:685.80K时长:03:54
Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


Google AI Infra 技术专家杨国强已确认出席并发表题为以卓越性价比释放开放大模型潜能:TPU 上的推理优化全解的主题分享,本次演讲将探讨如何在 Google Cloud TPU 上,以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性,深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。


演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段,如何实现推理流程的深度调优,从而显著提升模型部署的吞吐效率与响应延迟。



杨国强现任 Google AI Infra 技术专家,拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域,在 AI 应用的训练、推理、跨硬件平台(GPU/TPU 等)部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验,致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下:


演讲提纲:

1、TPU 简介与技术演进

2、理解大模型推理的核心流程

  • 自回归模型的推理过程:Prefill 与 Decode 阶段解析

  • 关键挑战:如何突破延迟瓶颈与吞吐上限?

3、推理框架优化实践:vLLM 与 JetStream 深度调优

  • vLLM on TPU:自动前缀缓存(APC)、分块预填充、连续批处理的落地

  • JetStream 与推测解码:提升效率的系统级创新

  • LLM-d 与 GKE:如何构建分布式推理服务体系

4、性能指标解读与服务优化

  • 如何测量好推理服务?延迟、吞吐、KV Cache 使用率等指标剖析

  • 对比 GKE 推理网关 vs 传统负载均衡的实际效果

5、TPU 硬件特性赋能模型推理

  • SPMD 并行、SparseCore、Pod 架构下的推理效率优势

  • Ironwood 带来的最新计算能力与部署选项

6、落地案例与部署总结

  • 文生图场景中延迟下降实践:客户案例分享

  • 部署路径总结:多种方案下的性价比对比与优化建议

听众收益:

  • 全面理解 TPU 架构与演进,掌握其适配开放大模型的核心优势

  • 学会在 TPU 上部署大语言/图像模型的实战优化技巧

  • 掌握推理过程中的关键指标分析方法,并通过 GKE 网关优化推理服务

  • 借助真实案例理解如何兼顾推理性能与成本控制,实现性价比最大化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。



2025-08-05 13:003737

评论

发布
暂无评论

数字化转型下的数字经济新发展

CECBC

深度解析 Lucene 轻量级全文索引实现原理

vivo互联网技术

lucene 检索 索引技术

获客达人app系统开发

获客I3O6O643Z97

大数据

Go语言,你必须掌握的--高效并发模式!

微客鸟窝

Go 语言

智慧能源:清洁低碳环保新能源,沙漠光伏与光热发电站 3D 可视化

一只数据鲸鱼

数据可视化 智慧能源 光伏发电 沙漠光伏

Rust从0到1-并发-可扩展性

rust 并发 sync Concurrency send

网易传媒数据指标体系建设实践

网易数帆

大数据 数据仓库 指标体系

赋能中小银行数字营销:索信达助力深圳农商行建设标签系统

索信达控股

金融 银行 用户标签

【LeetCode】滑动窗口的最大值Java题解

Albert

算法 LeetCode 7月日更

bash: docker-compose: 未找到命令

阿呆

Docker-compose

360 政企安全集团基于 Flink 的 PB 级数据即席查询实践

Apache Flink

flink

【设计模式】抽象工厂

Andy阿辉

编程 程序员 设计模式 23种设计模式 编程思想

HCIA-HarmonyOS Application Developer 应用方向认证资料

爱吃土豆丝的打工人

HarmonyOS HCIA认证 应用开发方向

重磅消息!写给安卓软件工程师的3条建议

欢喜学安卓

android 程序员 面试 移动开发

一文搞懂一致性hash的原理和实现

万俊峰Kevin

微服务 hash Go 语言

什么是MircoPython?

华为云开发者联盟

Python 编程语言 物联网 MicroPython 嵌入式应用

【设计模式】总览

Andy阿辉

编程 程序员 设计模式 23种设计模式

【设计模式】工厂模式

Andy阿辉

编程 程序员 设计模式 23种设计模式

Vue进阶(六十二):理解$nextTick()

No Silver Bullet

Vue 7月日更 nextTick

基于RNN和CTC的语音识别模型,探索语境偏移解决之道

华为云开发者联盟

语音 RNN ASR CTC 语音识别模型

基于用户角色的数据库智能监控系统应用场景分析

华为云开发者联盟

数据库 架构 监控 用户 智能监控

Pandas高级教程之:稀疏数据结构

程序那些事

Python 数据分析 pandas 程序那些事 稀疏矩阵

架构实战营 模块二作业

脉醉

#架构实战营

重磅来袭!全网最具深度的三次握手、四次挥手讲解

欢喜学安卓

android 程序员 面试 移动开发

Python OpenCV 图像处理再循环,第一阶段复盘

梦想橡皮擦

7月日更

统一语言 = 领域模型 ?

escray

学习 极客时间 7月日更 如何落地业务建模

【Flutter 专题】81 图解 Android Native 集成 FlutterBoost 小尝试 (三)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

Vue进阶(十六):vue项目结构启动原理详解

No Silver Bullet

Vue 7月日更 启动原理

抖音霸屏系统软件开发

获客I3O6O643Z97

大数据 抖音霸屏

华为云MVP周峥:气象预报是个技术活,大数据、超算、AI,缺一不可

华为云开发者联盟

人工智能 大数据 环保 气象 超算

Linux - 零拷贝

大海

Linux zero copy

Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章