写点什么

TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用 10 多年了,一直非常满意

  • 2025-12-16
    北京
  • 本文字数:2656 字

    阅读完需:约 9 分钟

大小:1.27M时长:07:24
TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用10多年了,一直非常满意

根据最新报道,随着谷歌 TPU 芯片需求大涨,谷歌扩大了对联发科合作定制新一代 TPU v7e 的订单,订单量比原规划激增数倍。消息称,联发科为谷歌操刀定制的首款 TPU v7e 将于下季度末进入风险性试产,并再拿下谷歌下一代 TPU v8e 的订单。联发科大单获得了台积电的先进封装产能支持,2027 年台积电提供给联发科谷歌项目的 CoWoS 产能更将暴增 7 倍以上。

 

尽管承认谷歌在过去 10 年中取得了进步,但英伟达认为其大约领先谷歌 TPU 两年。由于人工智能模型变化迅速,英伟达认为谷歌很难让云服务提供商采用 TPU,因为 TPU 是为更特定的模型类型而设计的。相比之下,英伟达相信其更灵活、可编程的平台仍然是构建大规模云端人工智能基础设施的最佳选择。

 

但无论如何,谷歌确实让英伟达产生了些许危机。近日,在 NeurIPS 大会期间,谷歌 DeepMind、谷歌研究院的首席科学家兼 Gemini 项目联合技术负责人 Jeff Dean 做客 Laude Lounge 节目,聊到了 TPU 和 Pathways 等基础系统是如何出现的,下面是其在节目中的相关对话。

 

主持人:谷歌最近发布了一款新型 TPU 芯片。第七代 TPU 芯片有什么特别之处?

 

Jeff Dean:就像每一代后续的 TPU 芯片一样,它都比上一代更出色。它有很多新功能,这些芯片会连接成我们称之为集群(pods)的大型配置。我记得每个集群大概有 9216 块芯片。而且它的性能提升非常显著,尤其是在处理 FP4 这类低精度浮点格式时。这对大模型训练、推理以及很多类似场景都非常有用。所以我们对此非常兴奋。

 

主持人:很棒。往大了说,谷歌最初开发 TPU 是为了满足内部需求。谷歌是全球顶尖的人工智能应用公司和人工智能研究机构,据我了解,最初的动机是希望掌控完整的垂直整合技术栈。之后你们最终开放了这些技术的使用权,在加速器态系统中参与全球竞争,与其他设计和销售加速器的企业同台竞技。现在很多人都对 TPU 的巨大市场潜力感到兴奋。

 

在你看来,你在谷歌的角色如何平衡两方面目标:一方面是谷歌内部对 TPU 的使用需求,另一方面是在竞争激烈的市场中参与竞争,让谷歌之外的数百万人、数十亿人都能通过购买 TPU 获得这些技术优势?

 

Jeff Dean:TPU 项目最初确实是为了满足我们内部需求,一开始主要聚焦于推理。

 

早在 2013 年,我们就意识到深度学习方法将会非常成功。而且每次我们用更多数据训练更大规模的模型时,在语音和视觉等领域的效果都会更好。当时我做了一些粗略估算,如果我们想把这个性能更优但计算密集型的语音模型推广给 1 亿用户,让他们每天使用几分钟,所需的计算量会非常惊人。如果用 CPU 来处理,我们实际上需要把谷歌的电脑数量增加一倍,才能推出这个改进后的语音模型。

 

所以,这就是我们的初衷:如果我们设计专门用于这类机器学习计算的硬件,也就是密集低精度线性代数相关的硬件,就能大幅提升效率。事实也证明了这一点。第一代 TPU 的能效比当时的 CPU 或 GPU 高出 30 到 70 倍,速度也快 15 到 30 倍。

 

主持人:你是说那是 2015 年的事?

 

Jeff Dean:是的。我们 2013 年开始进行这个思想实验,2015 年这些芯片才部署到我们的数据中心。我们还就此发表了一篇论文,当时还是前 Transformer 架构时代。

 

主持人:前 Transformer 架构时代啊。

 

Jeff Dean:对。当时我们主要关注语音识别和视觉卷积模型。我们在第一代 TPUv1 的设计末期,特意加了一点设计改动,让它也支持长短期记忆网络。当时长短期记忆网络在语言建模领域很流行,这一改动也让我们能够支持语言翻译任务。

 

之后的 TPU 版本则更侧重于更大规模的系统,不再只是单一的 PCIe 卡,而是完整的机器学习超级计算机,包括最新的 Ironwood 芯片。每一代 TPU 都在能效、性价比等我们关注的方面都有很大提升,这让我们能够支持更大规模的训练任务,也能处理更多用户的请求。

 

主持人:Transformer 架构本身也是在谷歌诞生的,时间线差不多。但 TPU 是在这之前发明的,之后 Transformer 架构才出现。你认为,随着 Transformer 架构的发展改变了我们如今的世界,谷歌拥有这种垂直整合的硬件栈,两者之间是否存在协同设计的偶然性?

 

Jeff Dean:每一代 TPU 的开发,我们都非常努力地利用协同设计的机会。我们有很多研究人员会思考未来 2 年半到 6 年内我们可能会运行哪些机器学习计算。

 

作为硬件设计者,你需要预测这个发展迅速的领域,这并不容易。但有很多人在关注这个领域的发展方向,他们会提出一些可能有趣的想法。虽然我们还不确定这些想法是否可行,但我们可以在硬件中加入相关的硬件特性或功能。如果这些想法最终被证明很重要,我们的硬件就能及时提供支持。就算这些投入没有得到回报,也只是在芯片面积上占用了一小部分空间,不算太大的损失,但我们确实需要为这些重要的潜在需求做好准备。

 

这是一项很有趣的预测工作,需要预测整个机器学习领域的发展方向,然后判断我们需要什么样的硬件支持。

 

主持人:纵观您在谷歌的过往,从 MapReduce 到 Google File System,这些最初都是为谷歌内部需求而发明的系统,最终都对外发布了。您见证了谷歌创造并向世界展示价值,然后通过 TPU 架构等公开发布。您是否认为,随着 Ironwood 的发布,世界其他地方也即将迎来拐点,获得谷歌曾经享有的优势?对于一位研究人员来说,影响力的实现就是我们追求的时刻,您是否感觉 TPU 正处于这个关键的拐点?

 

Jeff Dean:是的,我们使用 TPU 已经超过十年了,一直对它们非常满意。协同设计的特性使它们非常适合我们想运行的各种机器学习计算。多年来,我们也通过我们的云 TPU(Cloud TPU)项目对外出租。现在,许多客户正将它们用于各种不同的任务。

 

我们在 TPU 之上构建了一系列软件层,让它们使用起来非常方便。目前,使用 TPU 最成熟的途径是 JAX 框架,它运行在我们内部构建的 Pathways 系统之上,而 Pathways 又运行在 XLA 编译器(一个带有 TPU 后端的机器学习编译器)之上。

 

Pathways 的意义在于,我们所有的 Gemini 模型开发、研究和大规模训练任务都运行在这个技术栈上。Pathways 是一个我们从大约七年前开始构建的优秀系统,它能够给你一种单一系统映像的错觉,跨越数千或数万个芯片。你可以运行一个单独的 Python 进程来驱动你的 JAX 代码,它不会显示为单个 TPU 节点上的四个设备,而是显示为你的 JAX 进程可以访问 2 万个设备。

 

它运行起来非常自然,系统会在底层自动找出应该使用哪种传输机制和哪个网络:在 TPU Pod 内部使用高速互连,跨越 Pod 边界时使用数据中心网络,跨越城市区域时使用长距离链接(Long-distance Links)等等。我们实际上运行着非常大规模的训练任务,其中一个 Python 进程驱动着位于多个城市的多个 TPU Pod。

 

参考链接:

https://www.youtube.com/watch?v=9u21oWjI7Xk&t=31s

 

2025-12-16 15:346

评论

发布
暂无评论

数字货币是大势所趋,新冠疫情后必须率先发展DCEP

CECBC

数字货币 银行

架构1期第三周作业一

道长

极客大学架构师训练营

一个草根的日常杂碎(9月28日)

刘新吾

随笔杂谈 生活记录 社会百态

关于互联网留存和收益你知道多少—带你走近用户成长体系

滴滴普惠出行

一文纵览向量检索

华为云开发者联盟

数据 搜索 检索 检查

Electron 快速入门及最新安装教程

程序员学院

Java html 大前端 Electron node,js

公有云厂商哪家强?本月UCloud、百度云、阿里云位居三甲——2020年8月云主机性能评测排名

博睿数据

华为全联接2020:环信AI领跑,输出5大行业最佳实践

DT极客

区块链会替代大数据吗?

CECBC

区块链 大数据

一文领略 HTTP 的前世今生

yes

互联网 网络 HTTP 阿帕网

戴尔G系列游戏本助玩家激战英特尔大师挑战赛

E科讯

bug 回忆录(一)

志学Python

三年筑一“用”:长跑中的智能IP网络

脑极体

中国Prime会员独享巅峰64小时超长跨境网购时间

爱极客侠

融云技术分享:基于WebRTC的实时音视频首帧显示时间优化实践

JackJiang

音视频 即时通讯 实时通信

世界的下一个主宰——人工智能

CECBC

人工智能 智能时代

PPT画成这样,述职答辩还能过吗?

小傅哥

Java 小傅哥 流程图 架构师 PPT

一个草根的日常杂碎(9月27日)

刘新吾

随笔杂谈 生活记录 社会百态

牛皮!应届生面试阿里Java岗,七轮过后定级P6,薪资44.8W

面试 计算机基础 编程开发 架构师技能

第 0 次面试

escray

程序员 面试 面经

Binder那么弱怎么面大厂?

博文视点Broadview

Java android 通信 移动开发 Android进阶

实践分享丨物联网操作系统中的任务管理

华为云开发者联盟

华为 数据 物联网 进程

关于深浅拷贝

西贝

Java 大前端 基础

大学四年我是怎么写操作系统和计算机网络的?掏心掏肺的分享!

小林coding

学习 程序员 计算机网络 操作系统 计算机基础

奈学开发者社区分享:Java - 设计模式的7个设计原则

古月木易

Java 设计模式

奈学开发者社区分享:Java - 设计模式的7个设计原则

奈学教育

Java 设计模式 设计原则

初学源码之——银行案例手写IOC和AOP

Java架构师迁哥

查看mac电脑的温度信息, 并且给mac电脑降温

lmymirror

macos Mac terminal

for-range造就循环永动机?快来看看go中for-range的那些事!

Gopher指北

后端 for Go 语言

深入理解MySQL中事务隔离级别的实现原理

X先生

MySQL 数据库 后端 事务

H5选图预览到上传最佳实践

阿里云金融线TAM SRE专家服务团队

android H5

TPU 订单狂增,谷歌扩产新一代芯片!谷歌首席科学家:我们使用10多年了,一直非常满意_AI&大模型_褚杏娟_InfoQ精选文章