
根据最新报道,随着谷歌 TPU 芯片需求大涨,谷歌扩大了对联发科合作定制新一代 TPU v7e 的订单,订单量比原规划激增数倍。消息称,联发科为谷歌操刀定制的首款 TPU v7e 将于下季度末进入风险性试产,并再拿下谷歌下一代 TPU v8e 的订单。联发科大单获得了台积电的先进封装产能支持,2027 年台积电提供给联发科谷歌项目的 CoWoS 产能更将暴增 7 倍以上。
尽管承认谷歌在过去 10 年中取得了进步,但英伟达认为其大约领先谷歌 TPU 两年。由于人工智能模型变化迅速,英伟达认为谷歌很难让云服务提供商采用 TPU,因为 TPU 是为更特定的模型类型而设计的。相比之下,英伟达相信其更灵活、可编程的平台仍然是构建大规模云端人工智能基础设施的最佳选择。
但无论如何,谷歌确实让英伟达产生了些许危机。近日,在 NeurIPS 大会期间,谷歌 DeepMind、谷歌研究院的首席科学家兼 Gemini 项目联合技术负责人 Jeff Dean 做客 Laude Lounge 节目,聊到了 TPU 和 Pathways 等基础系统是如何出现的,下面是其在节目中的相关对话。
主持人:谷歌最近发布了一款新型 TPU 芯片。第七代 TPU 芯片有什么特别之处?
Jeff Dean:就像每一代后续的 TPU 芯片一样,它都比上一代更出色。它有很多新功能,这些芯片会连接成我们称之为集群(pods)的大型配置。我记得每个集群大概有 9216 块芯片。而且它的性能提升非常显著,尤其是在处理 FP4 这类低精度浮点格式时。这对大模型训练、推理以及很多类似场景都非常有用。所以我们对此非常兴奋。
主持人:很棒。往大了说,谷歌最初开发 TPU 是为了满足内部需求。谷歌是全球顶尖的人工智能应用公司和人工智能研究机构,据我了解,最初的动机是希望掌控完整的垂直整合技术栈。之后你们最终开放了这些技术的使用权,在加速器态系统中参与全球竞争,与其他设计和销售加速器的企业同台竞技。现在很多人都对 TPU 的巨大市场潜力感到兴奋。
在你看来,你在谷歌的角色如何平衡两方面目标:一方面是谷歌内部对 TPU 的使用需求,另一方面是在竞争激烈的市场中参与竞争,让谷歌之外的数百万人、数十亿人都能通过购买 TPU 获得这些技术优势?
Jeff Dean:TPU 项目最初确实是为了满足我们内部需求,一开始主要聚焦于推理。
早在 2013 年,我们就意识到深度学习方法将会非常成功。而且每次我们用更多数据训练更大规模的模型时,在语音和视觉等领域的效果都会更好。当时我做了一些粗略估算,如果我们想把这个性能更优但计算密集型的语音模型推广给 1 亿用户,让他们每天使用几分钟,所需的计算量会非常惊人。如果用 CPU 来处理,我们实际上需要把谷歌的电脑数量增加一倍,才能推出这个改进后的语音模型。
所以,这就是我们的初衷:如果我们设计专门用于这类机器学习计算的硬件,也就是密集低精度线性代数相关的硬件,就能大幅提升效率。事实也证明了这一点。第一代 TPU 的能效比当时的 CPU 或 GPU 高出 30 到 70 倍,速度也快 15 到 30 倍。
主持人:你是说那是 2015 年的事?
Jeff Dean:是的。我们 2013 年开始进行这个思想实验,2015 年这些芯片才部署到我们的数据中心。我们还就此发表了一篇论文,当时还是前 Transformer 架构时代。
主持人:前 Transformer 架构时代啊。
Jeff Dean:对。当时我们主要关注语音识别和视觉卷积模型。我们在第一代 TPUv1 的设计末期,特意加了一点设计改动,让它也支持长短期记忆网络。当时长短期记忆网络在语言建模领域很流行,这一改动也让我们能够支持语言翻译任务。
之后的 TPU 版本则更侧重于更大规模的系统,不再只是单一的 PCIe 卡,而是完整的机器学习超级计算机,包括最新的 Ironwood 芯片。每一代 TPU 都在能效、性价比等我们关注的方面都有很大提升,这让我们能够支持更大规模的训练任务,也能处理更多用户的请求。
主持人:Transformer 架构本身也是在谷歌诞生的,时间线差不多。但 TPU 是在这之前发明的,之后 Transformer 架构才出现。你认为,随着 Transformer 架构的发展改变了我们如今的世界,谷歌拥有这种垂直整合的硬件栈,两者之间是否存在协同设计的偶然性?
Jeff Dean:每一代 TPU 的开发,我们都非常努力地利用协同设计的机会。我们有很多研究人员会思考未来 2 年半到 6 年内我们可能会运行哪些机器学习计算。
作为硬件设计者,你需要预测这个发展迅速的领域,这并不容易。但有很多人在关注这个领域的发展方向,他们会提出一些可能有趣的想法。虽然我们还不确定这些想法是否可行,但我们可以在硬件中加入相关的硬件特性或功能。如果这些想法最终被证明很重要,我们的硬件就能及时提供支持。就算这些投入没有得到回报,也只是在芯片面积上占用了一小部分空间,不算太大的损失,但我们确实需要为这些重要的潜在需求做好准备。
这是一项很有趣的预测工作,需要预测整个机器学习领域的发展方向,然后判断我们需要什么样的硬件支持。
主持人:纵观您在谷歌的过往,从 MapReduce 到 Google File System,这些最初都是为谷歌内部需求而发明的系统,最终都对外发布了。您见证了谷歌创造并向世界展示价值,然后通过 TPU 架构等公开发布。您是否认为,随着 Ironwood 的发布,世界其他地方也即将迎来拐点,获得谷歌曾经享有的优势?对于一位研究人员来说,影响力的实现就是我们追求的时刻,您是否感觉 TPU 正处于这个关键的拐点?
Jeff Dean:是的,我们使用 TPU 已经超过十年了,一直对它们非常满意。协同设计的特性使它们非常适合我们想运行的各种机器学习计算。多年来,我们也通过我们的云 TPU(Cloud TPU)项目对外出租。现在,许多客户正将它们用于各种不同的任务。
我们在 TPU 之上构建了一系列软件层,让它们使用起来非常方便。目前,使用 TPU 最成熟的途径是 JAX 框架,它运行在我们内部构建的 Pathways 系统之上,而 Pathways 又运行在 XLA 编译器(一个带有 TPU 后端的机器学习编译器)之上。
Pathways 的意义在于,我们所有的 Gemini 模型开发、研究和大规模训练任务都运行在这个技术栈上。Pathways 是一个我们从大约七年前开始构建的优秀系统,它能够给你一种单一系统映像的错觉,跨越数千或数万个芯片。你可以运行一个单独的 Python 进程来驱动你的 JAX 代码,它不会显示为单个 TPU 节点上的四个设备,而是显示为你的 JAX 进程可以访问 2 万个设备。
它运行起来非常自然,系统会在底层自动找出应该使用哪种传输机制和哪个网络:在 TPU Pod 内部使用高速互连,跨越 Pod 边界时使用数据中心网络,跨越城市区域时使用长距离链接(Long-distance Links)等等。我们实际上运行着非常大规模的训练任务,其中一个 Python 进程驱动着位于多个城市的多个 TPU Pod。
参考链接:
https://www.youtube.com/watch?v=9u21oWjI7Xk&t=31s







评论