50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Google AI Infra 技术专家杨国强确认出席 AICon 深圳,分享 TPU 上的推理优化全解

  • 2025-08-05
    北京
  • 本文字数:1263 字

    阅读完需:约 4 分钟

大小:685.80K时长:03:54
Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


Google AI Infra 技术专家杨国强已确认出席并发表题为以卓越性价比释放开放大模型潜能:TPU 上的推理优化全解的主题分享,本次演讲将探讨如何在 Google Cloud TPU 上,以高性价比的方式部署开放的大语言模型和文生图模型。我们将基于 TPU 的发展历程及其硬件架构特性,深入剖析如 vLLM、JetStream、MaxDiffusion 等主流推理框架在 TPU 上的优化路径。


演讲将重点介绍围绕自动前缀缓存、分块预填充、连续批处理、分布式推理等关键技术手段,如何实现推理流程的深度调优,从而显著提升模型部署的吞吐效率与响应延迟。



杨国强现任 Google AI Infra 技术专家,拥有超过 20 年 IT 及 10 年云计算行业经验。近年专注于 AI 基础设施领域,在 AI 应用的训练、推理、跨硬件平台(GPU/TPU 等)部署适配及性能优化方面具有深厚的理论知识和丰富的实战经验,致力于推动 AI 算力在各行业的普惠化落地。他在本次会议的详细演讲内容如下:


演讲提纲:

1、TPU 简介与技术演进

2、理解大模型推理的核心流程

  • 自回归模型的推理过程:Prefill 与 Decode 阶段解析

  • 关键挑战:如何突破延迟瓶颈与吞吐上限?

3、推理框架优化实践:vLLM 与 JetStream 深度调优

  • vLLM on TPU:自动前缀缓存(APC)、分块预填充、连续批处理的落地

  • JetStream 与推测解码:提升效率的系统级创新

  • LLM-d 与 GKE:如何构建分布式推理服务体系

4、性能指标解读与服务优化

  • 如何测量好推理服务?延迟、吞吐、KV Cache 使用率等指标剖析

  • 对比 GKE 推理网关 vs 传统负载均衡的实际效果

5、TPU 硬件特性赋能模型推理

  • SPMD 并行、SparseCore、Pod 架构下的推理效率优势

  • Ironwood 带来的最新计算能力与部署选项

6、落地案例与部署总结

  • 文生图场景中延迟下降实践:客户案例分享

  • 部署路径总结:多种方案下的性价比对比与优化建议

听众收益:

  • 全面理解 TPU 架构与演进,掌握其适配开放大模型的核心优势

  • 学会在 TPU 上部署大语言/图像模型的实战优化技巧

  • 掌握推理过程中的关键指标分析方法,并通过 GKE 网关优化推理服务

  • 借助真实案例理解如何兼顾推理性能与成本控制,实现性价比最大化


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。



2025-08-05 13:003700

评论

发布
暂无评论

踩了一个java命令行参数顺序的坑

AI乔治

Java 架构 stream

Mybatis【1】-- 第一个Mybatis程序

秦怀杂货店

mybatis 入门 教程

线程池运用不当的一次线上事故

AI乔治

Java 架构 高并发 线程池

JVM系列-java内存模型(JMM)

诸葛小猿

JMM Java内存模型 共享变量读写

Java 集合(7)-- List 接口源码解析

秦怀杂货店

Java List 源码 集合 java集合使用

架构师训练营第八周作业

四夕晖

JDBC【1】-- 初级入门之增删改查

秦怀杂货店

数据库 jbdc crud

大量类加载器创建导致诡异FullGC

AI乔治

Java 架构 JVM GC

Scala语法特性(二):控制语句及函数方法

正向成长

Scala函数 Scala控制语句

Mybatis【2】-- 多个mapper文件以及namespace作用

秦怀杂货店

mybatis Mapper namespace

Java 集合(6.1)-- Collection 和Collections什么关系?

秦怀杂货店

Java collection 集合 Collections

JDBC【3】-- SPI技术以及在数据库连接中的使用

秦怀杂货店

数据库 spi

记一次 Java 服务性能优化

AI乔治

Java 架构 性能优化 高性能

transient关键字的作用以及几个疑问的解决

秦怀杂货店

序列化 反序列化 transient

Java反射说得透彻一些

秦怀杂货店

Java 反射 java反射

Java 集合(8)-- ArrayList 源码解析

秦怀杂货店

Java 源码 集合 ArrayList

常用Git命令速查手册

jiangling500

git

ARTS打卡 第23周

引花眠

微服务 ARTS 打卡计划 springboot

ARTS打卡 第24周

引花眠

微服务 ARTS 打卡计划 springboot

Mac 安装Homebrew慢的问题解决

秦怀杂货店

Mac homebrew

JDBC【2】-- 工作原理以及简单封装

秦怀杂货店

Java JDBC 工作原理

四周 习题与总结

水浴清风

免费图床+CDN:GitHub+jsDeliver

jiangling500

GitHub CDN 免费图床 jsDeliver

甲方日常 51

句子

工作 随笔杂谈 日常

Java 集合(5)-- Collections源码解析

秦怀杂货店

Java 集合 Collections

Java 集合(9)-- Vector超级详细源码解析

秦怀杂货店

Java 源码 集合 ArrayList vector

serialVersionUID作用是什么以及如何生成的?

秦怀杂货店

Java 序列化 serialVersionUID 反序列化

Java 集合(6)-- Collection源码解析

秦怀杂货店

Java 源码 collection 集合 JAVA集合

一次“诡异”的JVM缓存加载问题排查

AI乔治

Java 缓存 架构 JVM

你还在使用迭代器删除集合数据,out了,Java 中函数removeIf 不香么

Geek_6f0746

Java JAVA集合 Java迭代器

Mybatis【2.1】-- 从读取流到创建SqlSession发生了什么?

秦怀杂货店

数据库 mybatis SQLSession

Google AI Infra 技术专家杨国强确认出席AICon 深圳,分享TPU 上的推理优化全解_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章