整理 | 华卫

谷歌和 OpenAI 的“互狙”，最近愈加疯狂。几乎同一时间，两家公司抛出围绕智能体技术、基础模型能力边界的重磅更新，OpenAI 发了备受期待的 GPT-5.2，谷歌则上了全新“重新构想”的 Gemini Deep Research 版本。前日，谷歌又祭出最新模型 Gemini 3 Flash。

现代 AI 的成就，是在哪个时刻开始丝滑迭代，频频爆发？Transformer 之后，未来何种架构能再度支撑起下一代 AI 的阶跃式进步？

这些问题的答案，在刚结束不久的一场重量级人物对谈里或许能窥到几分方向。被称为 “AI 教父”的诺贝尔奖得主、图灵奖得主 Jeffrey Hinton 和谷歌首席科学家、 Gemini 团队的联合负责人 Jeff Dean 一同出现在 NeurIPS 大会现场，共同参与了 Radical Ventures 联合创始人 Jordan Jacobs 主持的圆桌对话。

从谷歌的早期突破到塑造当今 AI 系统的种种选择，他们就过去数十年的 AI 发展，畅谈了那些将决定 AI 未来走向的领导决策、模型架构、芯片硬件与未来趋势。

“要么全员幸福，要么一起完蛋！”对于 20 年后 AI 技术产生的影响，Hinton 给出这样一句犀利的判断。

值得一提的是，这场深度对话还包含许多首次对外曝出的幕后故事：那些大胆的构想是如何实现并面世、又与规模化所需的基础设施相遇的。

对话很长，我们整理了部分精华信息（快速消化版）：

划时代的 AlexNet 作为深度学习领域的先驱，它的诞生是在 Hinton 学生 Alex Krizhevsky 父母家的卧室里，仅用两块 GPU 显卡完成的。
64 岁的 Hinton 初入谷歌时，是以 Dean 的实习生身份接替了吴恩达，而他的入局也是 Google Brain 的起点。
12 年前，百度力图收购 Hinton 的团队及其成果，最终被谷歌截胡。此番，Hinton 首次公开了当时的拍卖场景，讲述了没选百度而去了谷歌的原因。
知识蒸馏技术在今天的模型迭代中发挥重要作用，而它在 2014 年就被提出时，却被 NIPS 拒稿了。
现在主流 LLM 通常都采用 Transformer 架构，Hinton 在对话中亲口承认，自己当时对刚问世的 Transformer 并没太在意。
ChatGPT 发布后，谷歌对压箱底的聊天机器人没早发出去遗憾不已，Jeff Dean 写了一页纸的备忘录立项了 Gemini。
Jeff Dean 第一次对外详述了自研芯片 TPU 的启动始末，2013 年谷歌就为此批下了 5000 万美元预算。
对于将来能够取代 Transformer 的全新架构，Hinton 和 Dean 分别谈了各自的预测和论断。
Hinton 和 Dean 都认为，20 年后，AI 技术会给世界带来意想不到的惊人巨变，医疗和教育两个领域首当其冲。

还有太多信息量值得细读，其中不乏有趣的技术细节和 AI 大佬们的科研经历。以下是为经 InfoQ 整理与翻译后、不改变原意的完整对话内容，以飨读者：

共同反思：没早意识到 Scaling Law

Jordan Jacobs：我人生的大部分时间其实是一名 AI 创业者，2010 年我创办了一家深度学习公司，那时候我们甚至还得跟客户解释 “AI” 这两个字母该怎么拼。不过我很幸运能有机会和 Jeff Dean 相识，保持密切联系，还和他合作参与了 Vector Institute（加拿大多伦多的一家独立非营利 AI 研究机构）的创立等多个项目。感谢 NeurIPS，能让他和 Jeffrey Hinton 两位同时出现在这里，这对我来说是一个难得的机会。首先，为在座还不了解 Jeffrey Hinton 的朋友介绍一下，他是诺贝尔奖得主、图灵奖得主，还斩获了无数其他奖项，被公认为 “AI 教父”。我一直没问过你，你喜欢这个称号吗？

Jeffrey Hinton：我不应该喜欢它，但实际上我很受用。

Jordan Jacobs：好的，知道了。那以后见到你，我就直接叫你 “教父” 了。

Jeffrey Hinton：没问题。

Jordan Jacobs：Jeff Dean 是谷歌的首席科学家，也是一位传奇工程师。他主导了众多具有突破性的项目，正是这些突破，推动了如今 AI 领域的飞速发展。他目前还是 Gemini 团队的联合负责人，在座的各位肯定都有关注，Gemini 已经在各大榜单上一骑绝尘，成为当前性能最强的模型，还引发了另一家公司的代码研读潮，这件事挺有意思的。非常荣幸能邀请两位同台。我注意到，你们两人的职业生涯早在很多年前就有相似的轨迹，是从 1986 年开始的。

Jeffrey Hinton：不，应该是 1982 年。不过我们直到 1985 年才意识到当时的研究有多重要。

Jordan Jacobs：好的，是我记错了几年。说实话，那时候我还在看动画片呢。

Jeffrey Hinton：我们的研究成果直到 1986 年才正式发表。

Jordan Jacobs：原来如此。说来也巧，不知道是偶然还是必然。我想问问 Dean，1990 年是什么促使你确定了本科毕业论文方向？可以简单讲讲吗？

Jeff Dean：当然可以。当时我修了两门关于并行算法的课程，其中有一门课花了大概一周时间讲解神经网络，我立刻就被这个领域吸引住了。于是我决定，跟着明尼苏达大学的 Vipenkumar 教授共事会很有意思。我去问他，“我能跟着你做荣誉毕业论文吗？” 我想研究用于训练神经网络的并行算法。之后我就投入了这项研究。当时我们系里有一台 32 处理器的超立方体计算机，我那时候觉得，只要我们能获得 32 倍的算力，就能打造出令人惊叹的神经网络。

Jordan Jacobs：你一定是第一个意识到扩展计算能力需要付出巨大努力的人。

Jeff Dean：其实我自己当时都没完全意识到这一点。我确实做了一些加速曲线的实验，但结果不算理想，因为我犯了一个大错。我在增加处理器数量的时候，并没有同步扩大模型的规模。当我试图把只有 10 个神经元的网络层分配到 32 个处理器上运行时，效果糟糕得离谱。不过这个过程还是挺有趣的，我当时设计了两种算法变体，其实就是现在所说的数据并行和模型并行训练模式，只不过那时候我给它们起了些奇怪的名字，比如 “模式划分” 和 “模型流水线” 之类的。

Jordan Jacobs：Hinton，你是从什么时候开始意识到算力的重要性的？

Jeffrey Hinton：我应该在 80 年代末就意识到这一点。当时有两个研究团队，一个是伯克利国际计算机科学研究所的 Herb Borlard 和 Nelson Morgan 团队，另一个是剑桥大学的 Tony Robinson 团队，他们都投入了大量精力，用并行计算技术研发更优的语音声学模型。最终他们研发的模型性能达到了当时的顶尖水平，远超用普通处理器训练的神经网络模型。那时候我们就该意识到，只要把模型规模做大，性能就会更好。但问题在于，扩大模型规模需要复杂的编程技术和硬件支持，所以我们当时并没有真正吸取这个教训。现在回想起来，没意识到这一点真的很愚蠢，但事实就是如此。

Jordan Jacobs：那你是到什么时候才真正明白这个道理的？

Jeffrey Hinton：我直到 2014 年听了一场讲座之后，才彻底想通这件事，确实是有点晚了。我之前没意识到它会一直扩大规模。

AlexNet 传奇：两块 GPU 改写 AI 史

Jordan Jacobs：好的，接下来我们聊聊推动现代 AI 发展的几个关键节点。我发现两位的一个共同点，就是你们都很擅长挑选优秀的合作伙伴一起共事。或许这个话题有点偏题，但我还是想问问，之后会回到主线。你在挑选本科生加入自己实验室的时候，最看重他们身上的哪些特质？

Jeffrey Hinton：我最看重的是这个人是否有原创能力，是否有自己的想法。我有时候会问面试者一个问题：“你有过的最好的想法是什么？”有些学生成绩全优，但他们会说自己还没产生过什么想法，因为还没读研究生，只是很期待未来能有好的想法。这类学生我是不会选的。

Jordan Jacobs：明白了。我们继续往后聊。你挑选的很多研究生和博士后后来都成了行业大牛，比如 Yann LeCun，还有很多人，昨天晚宴上我们还见到了 Max Welling（阿姆斯特丹大学机器学习研究主席、微软阿姆斯特丹新实验室负责人）和 Alex Graves（机器学习领域知名研究者、神经图灵机（NTM）提出者和可微神经计算机的创造者之一）。另外，多伦多大学的实验室里还有 Ilya Sutskever（OpenAI 前首席科学家）和 Alex Krizhevsky（AlexNet 网络一作）。说起来，可能有人去过那栋楼，它看起来一点都不像一个能改变世界的地方。

Jeffrey Hinton：没错，我们当时的实验室很小，连窗户都没有。不过这或许是件好事，至少他们没法分心往外看，只能专心做研究。

Jordan Jacobs：你们和这些学生一起合作，最终研发出了 AlexNet，用李飞飞在斯坦福大学构建的 ImageNet 数据集做训练，还参加了相关比赛。你能讲讲当时为什么决定做这件事吗？再回到算力的话题，当时训练 AlexNet 用了多少算力？

Jeffrey Hinton：其实事情的经过是这样的。几年前，Vlad 曾用英伟达的 GPU 尝试识别航拍图像里的道路。这其实是个很有难度的任务，因为城市道路上会有树木、车辆，还有各种阴影遮挡，他当时做得非常出色。这个研究项目是基于一项政府战略拨款开展的，该拨款旨在支持那些可能产生产业影响力的研究。在 Vlad 证明多层神经网络的性能远优于单层神经网络之后，我申请了续期资助。这在当时是一个关键突破，毕竟大家都在争论，增加网络层数到底有没有用，而他的实验给出了明确答案：每多增加一层，模型性能就会提升一截。结果有一位评审专家说，这笔钱不该批给我们，因为这个研究项目根本不可能产生任何产业价值。

Jordan Jacobs：你知道这位评审专家具体是谁吗？

Jeffrey Hinton：我倒是希望知道他是谁。可惜我没保留那份评审报告，不然我真想告诉他，去年美国股市 80% 的涨幅都和 AI 脱不开关系。言归正传，Vlad 的研究让我们意识到 GPU 的强大性能，其实我们从语音识别的研究中也早就发现了这一点。有一天，Alex Krizhevsky 来找我，他当时在研究小尺寸图像识别，用的是类似 MNIST 数据集的图像，因为我一直很看好 MNIST 数据集。他的想法是，如果能在小尺寸图像上实现识别，再拓展到真实场景的视觉识别应该会可行。我至今还记得，Krizhevsky 第一次尝试小尺寸图像识别时，跑来跟我说实验失败了。我去看了他的实验设置，发现他把权重衰减参数设成了 1。我问他：“为什么要把权重衰减参数设成 1？这个参数应该设成 0.001 才对。” 他回答：“我不知道，我只是觉得 1 这个数值听起来不错。”

其实你会发现，学生们在接触一个全新领域的时候，可能会犯一些看起来很 “傻” 的错误，但这不是因为他们笨，只是因为他们还不了解相关知识。Krizhevsky 后来进步得非常快。之后伊利亚提议：“我们为什么不把这个模型用到 ImageNet 数据集上？肯定能成功。我们必须抢在 Yann LeCun 之前完成这个实验。”当时 Yann LeCun 也一直在让自己实验室的博士后和学生尝试用卷积神经网络处理 ImageNet 数据集，但他的团队都觉得有更重要的事情要做，没把这件事放在心上。幸运的是，Ilya 当时态度很坚决，他还主动说：“这样吧，我来做数据预处理，把工作简化。” 于是他把所有图像都处理成了固定尺寸，应该是 256×256 像素，也可能是 224×224 像素。准确来说，我们是从原始图像中截取了 224×224 像素的图像块。实验结果非常理想。

后来我做了一个这辈子最明智的管理决策。当时 Krizhevsky 需要完成一篇深度文献综述，也就是要梳理相关领域的研究成果，证明自己具备开展研究的能力，才能正式开始博士论文研究。但 Krizhevsky 根本不想做这件事。于是我跟他说：“这样吧，只要你每周能把 AlexNet 在 ImageNet 数据集上的性能提升 1%，你就可以把文献综述的任务往后推迟一周。” 结果就这样，一周又一周地拖了下去。

Jordan Jacobs：那当时训练 AlexNet 的算力是从哪里来的？

Jeffrey Hinton：是在 Krizhevsky 父母家的卧室里，用两块 GPU 显卡完成的。 GPU 是我们买的，但电费是他父母付的。当然了，我这么安排也是为了帮多伦多大学省点钱，这是肯定的。

Google Brain 诞生记：64 岁实习生接替了吴恩达

Jordan Jacobs：差不多在同一时期，Google Brain 团队也应运而生。你能给我们讲讲这个团队的起源、创立的初衷，还有 “Google Brain” 这个名字的由来吗？

Jeff Dean：当然可以。我想，Google Brain 团队这个研究小组的起源，要从我偶遇吴恩达（Andrew Ng）说起。当时他刚开始每周抽一天时间来谷歌工作，他本身还是斯坦福大学的教员。我之前去斯坦福大学访问过一两次，所以认识他。我在茶水间碰到他，就问：“你怎么会在这里？”他回答：“我也不太确定具体要做什么，我刚来没多久。不过在斯坦福，我的学生们用神经网络做研究，已经开始取得不错的成果了。”其实本科毕业论文之后，我就没太关注神经网络领域了，只是一直觉得它是个很有用的研究方向，是个值得深耕的领域。于是我跟他说：“这听起来很有意思。我们谷歌有这么多计算机，为什么不在这里训练超大规模的神经网络呢？”

当时我们的数据中心里还没有配置 GPU，只有大量的 CPU 服务器，每台服务器大概有 16 到 24 个核心。所以我着手开发了一个软件抽象库，通过这个库，人们可以自定义神经网络结构，同时它能支持模型并行和数据并行两种模式，把计算任务分配到成千上万台机器上进行处理。我们最终把这个系统的规模做大，成功训练出了一个神经网络，它的规模是当时其他人训练过的模型的 50 倍。我们做过一个非常有名的实验，后来也被广泛报道。我们用无监督学习的方法，在 1000 万张随机抽取的 YouTube 视频帧上训练模型，目标很简单，就是让模型学习到一种有效的数据表征，能够实现对每一帧图像像素的重构。

不过这个实验里我们犯了一个大错：我们想在计算机视觉任务中引入局部连接的结构，却刻意没有使用卷积操作。因为我们当时执着于让模型更符合生物学合理性，觉得人类大脑的视觉系统里，不同区域的神经元应该不会共享权重参数。所以我们最终采用的是局部连接的图像块结构，但每个连接对应的参数都是独立的。这么一来，整个模型的参数规模达到了 20 亿。之后我们用这个模型在 ImageNet 22K 数据集上做了测试，这个数据集的标注类别数量相对更多，样本分布则更稀疏。测试结果显示，模型的错误率比当时的最优水平降低了约 70%。而完成这次训练，我们用了 1.6 万个 CPU 核心。

也是从那个时候开始，我们明确观察到一个规律：模型规模越大，性能表现就越好。我们还把这个软件抽象库应用到了其他多个领域，比如语音识别、各类计算机视觉任务等。虽然当时我们还没有把这个规律总结成正式的 “缩放定律”（Scaling Law），但我们已经形成了一个共识，这个共识其实就近似于后来的 Scaling Law，简单来说就是：模型更大、数据更多、算力更强，效果就会更好。

Jordan Jacobs：所以当 AlexNet 横空出世的时候，谷歌可能是唯一一个对此并不感到意外的机构。毕竟你们早就验证过这个逻辑。哪怕 AlexNet 是在 Krizhevsky 的卧室里完成训练，没有动用大规模算力，但只要给一个优秀的算法配上海量数据，再辅以充足算力，就足以彻底改变局面。

Jeff Dean：没错。其实早在 Krizhevsky 在 ImageNet 数据集上取得成果之前，我们在前一年就已经在 ImageNet 22K 数据集上实现了 70% 的相对误差降低。

Jordan Jacobs：应该就是同一年吧？你们两位就是在 2012 年的夏天第一次见面的吧？能不能分别讲讲你们对彼此的第一印象？

Jeffrey Hinton：好的。当时吴恩达决定全身心投入到 Coursera 的事业中，他认为这才是是未来的趋势，不过我觉得他当时的判断稍微有点偏差。他需要找一个人来接替他，担任 Google Brain 团队的技术顾问，这个人还得懂神经网络，于是他推荐了我。我答应去谷歌待一个夏天，原本的身份设定是访问科学家。但谷歌的规定是，访问科学家的任期至少要六个月，而我只想待一个夏天。他们要给我发薪水、办工牌，就必须给我定一个身份类别。最后没办法，我就成了一名实习生。

Jeff Dean：你曾是我的实习生？

Jeffrey Hinton：是啊，我当时是一个 64 岁的实习生。

Jeff Dean：我记得你当时还挂着绿色的工牌，和其他实习生一样。

Jeffrey Hinton：我想一个人能以 64 岁的高龄当上实习生，可能是因为谷歌的工牌系统里，年龄字段只分配了 6 个比特的存储空间，存不下太大的数字吧。

Jeff Dean：你就比普通实习生大那么一点点而已。

Jeffrey Hinton：我刚到谷歌的时候，还得跟着其他实习生一起参加入职培训。培训教室里坐满了年轻人，有印度理工学院的学生，有清华大学的学生，全都是绝顶聪明的年轻人。他们还都戴着统一的小绒线帽。我们当时每个人都发了一顶，我现在还留着，早知道今天就带来了。培训课上，老师站在讲台前说：“请大家用 LDAP 和一次性密码登录系统。” 我当时直接举手问：“什么是 LDAP？什么是一次性密码？”教室里有四个助教来回走动，帮大家解决问题。

大概十分钟后，他们专门指派了一个助教，全程围着我一个人转。其他学生都转过头来看我，看着这个年纪比他们大三倍还什么都不懂的老家伙，场面有点尴尬。中午我们去食堂吃饭，幸运的是，我之前教过的一个本科生刚好也在谷歌实习，她在排队的时候认出了我，喊了一声 “Hinton 教授”。这下所有人都恍然大悟：“哦，原来他是这么个来头。” 现在想起来，那一天的经历还真是挺奇妙的。

Hinton 首次揭秘往事：为何没选百度去了谷歌？

Jordan Jacobs：那你们两位第一次见面是什么时候？

Jeffrey Hinton：应该是我入职第一天的傍晚，或者第二天一早。

Jeff Dean：我记得应该是入职第一天之前，大概是某个周日。

Jeffrey Hinton：对，是周日。我们在帕洛阿尔托一家很不错的餐厅见的面，叫塔马林餐厅。

Jeff Dean：塔马林餐厅，没错，那家的越南菜很地道。

Jeffrey Hinton：我们俩一见如故，从那时候起一直到现在，相处得都非常融洽。后来 AlexNet 的成果发布之后，很多公司都找上门来，想要收购我们的团队。我们当时琢磨出一个门道，如果我们假装成一家正式的公司，能拿到的收购报价会更高。因为我们发现，企业给员工发工资的预算，和做收购的预算完全不是一个量级，后者差不多是前者的十倍。所以我们决定，以公司的名义参与收购谈判，最后还搞了一场竞价拍卖。不过其实我早就打定主意，一定要让谷歌胜出。因为那个夏天在谷歌的实习经历实在太愉快了，在 Google Brain 团队工作的每一天都让人觉得很有成就感。

Jordan Jacobs：你们当时是有计划地操控了整场拍卖？

Jeffrey Hinton：只是到了拍卖最后阶段，我们发现形势有点不对劲，可能会让不合适的公司中标，于是我们干脆直接叫停了拍卖。

Jordan Jacobs：明白了。那这场拍卖是在哪里举办的？

Jeffrey Hinton：是在 NIPS 大会期间，地点选在了一家赌场里。

Jeff Dean：对，就是南太浩湖赌场。

Jeffrey Hinton：赌场一楼的大厅里，全是玩老虎机、玩 21 点的人。每次有人赢了一万美元，赌场里的铃铛就会叮叮当当地响个不停。而我们在楼上，正进行着一场百万美元级别的竞价。每次加价，起步就是一百万。

Jeff Dean：现在回想起来，那个场面真的很荒诞。毕竟搞 AI 研究的人，大多都懂概率统计，根本不会去赌场赌博。赌场估计也烦死我们这群人了，因为我们全程都没碰过任何赌具。

Jeffrey Hinton：这场拍卖是 Terry Sejnowski 组织的，他还给了我一张特殊的 VIP 卡，凭这张卡可以进入赌场的贵宾休息室。这种卡一般只发给那些出手阔绰的 “大玩家”，也就是那些赌得大、输得也多的人。我拿着这张卡去贵宾餐厅吃饭，跟服务员说：“我其实不赌博。” 他们都一脸不信的样子，敷衍着说：“是啊，当然了。”

Jordan Jacobs：最后谷歌赢得了拍卖。你和 Ilya、Krizhevsky 一起，正式成立了 DNN Research 公司，然后把这家公司卖给了谷歌。你当初为什么想要加入谷歌？

Jeffrey Hinton：很简单，谷歌大脑团队的工作氛围太棒了。当时我还有另一个选择，是百度。我想我永远不会知道中国人在想些什么，我那时候没法出国旅行，根本去不了北京。我只知道，在谷歌工作肯定会很开心。

Jeff Dean：没错，那段日子确实特别有意思。

Jeffrey Hinton：我觉得早期在 Google Brain 团队的所有人，现在回想起来都会觉得那段时光特别美好。一切都是全新的，我们不知道未来会走向何方，但我们坚信一个道理：模型规模越大、数据越多，效果就一定会越好。我还记得自己刚从大学进入谷歌的时候，发生过一件事。有一次我们的算力用完了，我听到 Dean 在打电话，隐约能听到他说 “嗯，两百万美元应该够了”。我当时心想，换作是在大学，想要拿到两百万美元的算力经费，得写好几年的项目申请才行。

Jordan Jacobs：当时 Google Brain 团队的规模有多大？

Jeffrey Hinton：大概 20 个人，我们所有人挤在一间大办公室里，比现在这个房间还要小。

Jordan Jacobs：看来团队里多伦多大学的成员占比很高啊。

Jeffrey Hinton：是啊。我们每个人都在那间办公室里有一张办公桌，氛围特别好。后来团队规模也一直在扩大。

知识蒸馏和 Transformer，都被看走眼过？

Jordan Jacobs：接下来我们聊聊，稍后会谈到 Transformer 模型，不过先说说在那之后的几年里，Google Brain 团队还产出了哪些成果？

Jeffrey Hinton：我当时在研究一种叫 “胶囊网络”（Capsule Network）的技术。这个项目其实很能说明一个道理：做事光有毅力是不够的。我这个人毅力很足，但如果选错了研究方向，再强的毅力也没用，只会白白浪费好几年时间，最后一事无成。胶囊网络就是这样的例子。不过在研究初期，我听取了两位我非常敬重的人的建议，就是 Dean 和 Ilya。他们都劝我别再执着于胶囊网络了，可他们越这么说，我反而越坚定要做下去。

当然，我也为谷歌做了一些有用的工作。比如知识蒸馏技术，我记得是 2014 年提出来的。当时这个研究成果被 NIPS 拒稿了。我至今还记得评审意见，有一位评审说：“用学生模型去蒸馏教师模型的知识，性能根本没比教师模型好，那这个技术有什么意义？”显然，这位评审完全没理解知识蒸馏的核心价值。但事实证明，知识蒸馏是一项非常实用的技术。

Jordan Jacobs：你还记得当时是哪位评审写的拒稿意见吗？

Jeffrey Hinton：不记得了，评审都是匿名的。

Jordan Jacobs：还好是匿名的。我知道你会保留这些评审意见，有时候我们还能扒出这些评审是谁。

Jeffrey Hinton：我不知道是谁在加拿大写了一份评审报告，说深度学习的研究永远不会产生任何产业价值，我真希望我那样做了。

Jordan Jacobs：说到加拿大，还有一件很有意思的往事。曾经有一家叫 Research in Motion 的企业，黑莓手机就是他们的产品。在你加入谷歌、AlexNet 问世之前，你还把实验室里的一些技术带给了他们。能给我们讲讲这件事吗？这绝对算得上是一个前车之鉴。

Jeffrey Hinton：好的。当时 George Dahl 和 Abdel-rahman Mohamed 研发了一个语音声学模型，性能比当时最好的模型略胜一筹。只是略好一点，不像 AlexNet 在计算机视觉领域那样实现了碾压式突破。第二年夏天，Nav Deep 想去 Research in Motion 实习。于是我联系了这家公司，跟他们说：“我们找到了一种更好的语音识别方法，想把这项技术交给你们。他可以来这里实习，负责教你们怎么用。”结果 Research in Motion 说，他们对语音识别技术不感兴趣。

Jeff Dean：也是，毕竟他们的手机有实体键盘，确实用不上语音识别。

Jeffrey Hinton：没错。后来 Research in Motion 的一位创始人还总抱怨，说加拿大的科研成果从来没有在本土得到应用。可明明是他们自己放弃了这个机会。这也算是一段很有意思的历史了。后来 Nav Deep 就去了谷歌。不过他当时正在申请美国绿卡，没法去美国本土工作，只能在谷歌蒙特利尔实验室任职。谷歌给他配备了一些 GPU，他还有一位非常优秀的经理，叫 Vincent Vanhoucke。他当时跟经理说，他想彻底改变谷歌的语音识别技术架构。Vincent 一开始觉得这个想法太离谱了，让他先做一个更务实的项目。但他态度很坚决，Vincent 最后只好说：“那你就试试吧。” 结果他真的成功了。事实证明，这项技术的应用价值远比想象中要大。

Jordan Jacobs：好的，我们把时间线再往后推。现在来聊聊 Transformer 模型，这项技术同样诞生于 Google Brain 团队。你能讲讲当时的研发团队是怎么开展工作的吗？他们在做这项研究的时候，内部有没有意识到这是一项新颖、有趣，甚至可能具有突破性的成果？还是说，大家只是把它当成又一项普通的研究，最终目标只是发表一篇论文？

Jeff Dean：Transformer 模型的研发灵感，其实来源于之前的 sequence-to-sequence 研究。没错，就是 Ilya、Oriol 和 Quoc 等人基于长短期记忆网络（LSTM）做的那个项目。他们当时用的是深度且规模较大的 LSTM 网络，最初在机器翻译任务上取得了非常出色的效果，后来这个模型也被应用到了各种各样的序列相关问题上。在那之后，我们一直在尝试扩大 LSTM 网络的规模。但后来有人意识到，传统的序列模型存在一个问题：模型会把所有信息都压缩到一个向量里，而且这个向量每个时间步只更新一次。这会带来两个弊端：一是存在序列依赖性，必须完成当前步的计算，才能进行下一步；二是要把大量复杂的信息都塞进一个向量里，效率很低。如果能保存所有的中间状态并进行处理，应该会是一种更好的方法。其实在谷歌之外，当时已经有一些关于注意力机制的早期研究了。

Jeffrey Hinton：是的，那是用到机器翻译领域。对于机器翻译来说，这样做是完全合理的。在写法语句子之前，先把英语句子写出来，这种场景下保留上下文信息是很合理的，而且当时需要处理的上下文规模也不大。我记得是 Bahdanau 等人发现，引入一种简单的注意力机制，就能让模型性能实现大幅提升。

Jeff Dean：后来研究人员将其运用到 Transformer，就有了 Transformer 模型的雏形。它的核心思想就是保存所有的中间状态，并让模型去关注这些状态。这个设计的优势非常明显：首先，所有状态的计算都可以并行进行，摆脱了之前的序列依赖；其次，模型在解码时，可以回顾所有的中间状态，获取更全面的信息，对于编码器类模型来说，也能利用更多的上下文信息。

Jeffrey Hinton：Transformer 模型刚问世的时候，我其实没太在意。因为我一直关注的是大脑的工作机制，而 Transformer 需要保存所有神经活动的向量，这显然和大脑的运作方式不一样。所以我当时觉得，既然大脑不是这么工作的，那这个模型也没什么研究价值。不过后来我发现，其实可以用 “快速权重” 来近似实现类似的功能，比如通过联想记忆就能完成一些近似计算。但直到现在，我还是不太清楚，模型是如何通过时序反向传播，根据后续的信息来学习前面的内容的。

Jeff Dean：但我认为，早期 Transformer 的第一篇论文就表明：在算力减少 10 到 100 倍的情况下，模型能达到和之前相当的性能；如果算力不变，性能则会有大幅提升。这显然是一项重大突破。除此之外，我们在稀疏激活模型的规模化方面也取得了类似的成果。我们看到，在达到同等性能的前提下，算力效率提升了 10 倍左右。而且这两项技术是互补的，把 Transformer 和混合专家模型结合起来，10 到 100 倍的算力效率提升，再加上 10 到 20 倍的提升，效果会呈乘法效应叠加。

过去十年里，算法层面实际上取得了巨大的进步，这些进步叠加在一起，产生了巨大的协同效应。再加上硬件层面的投入，比如研发更快的芯片、训练时使用更多芯片、延长训练时长等，这些因素共同作用，让算力的使用效率实现了指数级增长。现在的模型训练，所用的算力大概是十年前的数十亿倍；而十年前的算力，又已经是 1990 年的数百万甚至数千万倍了。

Jeffrey Hinton：我记得大概是 2012 年的时候，我们买了一块新的 Titan 显卡。当时负责系统维护的同事正在给 Vlad 的电脑装这块显卡，动作有点慢。我当时还算了一笔账，估算他装显卡的这段时间浪费了多少算力，毕竟这块显卡本来可以用来做计算的。我算出来的结果很惊人：如果在 1986 年用当时的计算机训练一个神经网络，那么用这块新显卡只要一分钟就能完成同样的计算量。

Jordan Jacobs：你是在 Transformer 论文发表之前，也就是外界还没对这项技术做出反响的时候实时意识到的吗？毕竟论文发表后，外界的反馈也需要一段时间才能传来。在 Google Brain 团队内部，看到这项研究成果时，你们有没有觉得这是一项重大突破，是一次跨越式的进步？

Jeff Dean：我觉得是这样的。当时在这个领域，其实只有少数人在做积极的研究。我们团队规模不大，但在很短的时间内，就探索了很多未被涉足的领域，取得了不少突破，比如知识蒸馏、Transformer 序列到序列模型、基于词向量的模型等等。Transformer 模型就是其中一项重大突破，它的重要性和之前的序列到序列模型、混合专家模型等成果是相当的。当时我们并没有觉得它比其他成果重要得多，直到现在我也不认为它的重要性远超其他技术。它确实非常实用，但我们现在正在使用的所有技术，都是因为有用才会被保留下来的。

Jordan Jacobs：没错。当时谷歌手握搜索引擎这一堪称史上最佳的商业模式，同时还有一支顶尖团队在不断产出各种突破性成果，所以 Transformer 模型的出现，在众多成果里并没有显得一枝独秀。谷歌本身拥有充足算力，也早已洞悉算力和数据的价值。

谷歌痛悔：早有压箱底成果，GPT 后火速拍板 Gemini

Jordan Jacobs：我很好奇，在 ChatGPT 问世之前，谷歌内部有没有过相关讨论，比如要不要将这些 AI 技术投入应用，哪怕可能会对现有业务造成冲击？还是说，谷歌只倾向于落地那些真正有助于业务发展的产品？

Jeffrey Hinton：这里还有个小历史插曲，我记得在 ChatGPT 之前，微软曾推出过一款聊天机器人，结果它却发表了仇恨言论，这件事当时让所有人都心有余悸。

Jeff Dean：对，是那个叫 Tay 的机器人。微软当时采用了在线训练的方式，这恐怕不是个明智的选择。

Jeffrey Hinton：甚至可以说相当糟糕。不过这话可别跟 Rich Sutton 说。

Jeff Dean：我不会去附和这个说法的。

Jeffrey Hinton：所以我觉得谷歌在技术落地这件事上一直非常谨慎。很多人可能不知道，其实在 ChatGPT 推出之前，谷歌就已经有了性能不错的大语言模型聊天机器人，比如 PaLM。谷歌当时欠缺的，其实只是人类反馈强化学习技术，而且他们没意识到，只需要少量样本，就能有效阻止模型输出不良内容。

Jeff Dean：没错。谷歌内部其实有一款聊天机器人，当时在公司内部的使用频率很高。它是在新冠疫情期间研发的，当时所有人都居家办公，这款机器人在谷歌内部吸引了约 8 万名用户，这已经占到了公司员工总数的相当大一部分。大家都觉得它非常实用，但我们当时的视野多少有些狭隘。和那个时代所有的神经网络模型一样，它存在事实性错误和幻觉问题，直到现在这类问题也没有完全解决。如果从搜索引擎的视角来看，这些问题是致命的，毕竟搜索业务的核心原则之一就是追求信息的准确性和真实性。

但我们当时没能充分意识到，聊天机器人还有很多非搜索类的潜在应用场景。比如 “帮我写一封给兽医的信，说明我的狗狗生病了”“帮我总结这篇论文的内容”，甚至是 “帮我写一篇论文”“帮我写一份论文评审意见”。当然，我可不是说真的有人会这么做。所以从纯粹的搜索业务角度出发，我们并不想把这款机器人作为产品对外推出；但从用户实用性的角度来看，8 万名谷歌员工给出的反馈都是极其正面的。因此，我们希望先解决事实性错误和幻觉问题，再将它推向外部用户。

Jordan Jacobs：好的。然后时间来到三年零一周前，ChatGPT 正式发布。当时谷歌内部的反应是什么样的？是不是立刻拉响了最高警报？

Jeff Dean：倒也不能这么说。我当时写了一份一页纸的备忘录，大意是：“我们这样下去有点不明智。我们早就知道，算力规模和训练数据量决定了模型的性能，投入的算力和数据越多，模型效果就越好。谷歌内部其实有多个相关团队在开展研究，比如资深的 DeepMind 团队、Google Brain 团队，还有 Google Research 的几个不同项目组，他们不仅在研究文本模型，还在探索各类多模态模型。 DeepMind 当时也有几个项目在推进，比如 Flamingo，还有另一个我一时想不起名字的模型。但问题在于，我们的研究思路和算力资源都太过分散了，这在我看来完全没有必要。”所以我在备忘录里提议：“我们应该整合所有力量，组建一支专门的团队，目标就是打造全球最好的多模态模型，集中所有算力资源，看看我们到底能做到什么程度。”这就是 Gemini 项目的由来。

Jordan Jacobs：这件事是在 ChatGPT 发布后多久发生的？

Jeff Dean：大概是在 ChatGPT 发布一两周之后。因为我们意识到，谷歌内部其实早就有了类似的聊天机器人，原本我们完全可以抢先发布的。说不遗憾是假的，但没关系，我们可以迎头赶上。

Jordan Jacobs：我还有个问题。谷歌有没有后悔发表 Transformer 的相关论文？

Jeff Dean：当然不后悔。因为这篇论文对整个世界都产生了非常积极的影响。

Jordan Jacobs：从那之后，谷歌的论文发表量是不是减少了？还是说，这只是外界对谷歌政策的误解？

Jeff Dean：其实谷歌现在依然发表了大量论文。你可以去看看 NeurIPS 的议程，谷歌入选的论文可能有上百篇，甚至更多。不过对于那些商业价值极高的超大模型，我们确实会更加谨慎。毕竟这个领域的竞争非常激烈，所以像 Gemini 模型训练方案的具体细节，我们不会全部公开。但对于那些处于前沿探索阶段、暂时无法确定其重要性的研究，我们还是会积极发表论文。一方面是为了分享想法，获取学术界的反馈；另一方面也是为了让整个科研社区都能从中受益。

Jordan Jacobs：发表论文也是谷歌吸引人才的一大竞争优势，对吧？很多其他实验室可能没有这样的意愿，或者没有这样的能力去大量发表论文。

Jeffrey Hinton：没错。谷歌作为一家大型研究机构，除了核心的 Gemini 模型研发之外，还有很多其他的研究方向，比如大量的基础机器学习研究，以及很多和机器学习无关的其他领域研究。这些研究成果的发表数量其实相当可观。

靠自研芯片"结构性碾压"？谷歌：打不过就加入吧

Jordan Jacobs：好的，我们把话题快进到最近。就在过去几周，谷歌发布了 Gemini 3。这个产品一推出，人们就再次意识到，谷歌确实是一家顶尖的 AI 公司。我觉得大家其实并没有忘记这一点，只是再一次深刻地感受到了。谷歌这些年其实有很多影响深远的长期投入，比如 TPU 就是典型的例子。我之前也跟你聊过，我现在才突然反应过来，谷歌其实有着其他公司无法比拟的结构性优势，因为你们拥有自研芯片。你能给我们讲讲 TPU 的起源吗？推动这个项目的初衷是什么？你认为这项技术到底为谷歌带来了多大的优势？

Jeff Dean：当然可以。TPU 的起源，其实源于我当时做的一个简单测算。那时候我们发现，无论是语音识别模型还是各类计算机视觉模型，性能都在飞速提升，但这些模型如果用 CPU 来运行，算力消耗会非常惊人。而当时谷歌的计算平台主要就是基于 CPU 搭建的。我当时就在想，如果我们的语音识别技术变得足够好，用户可能会更愿意使用语音功能。假设每天有 1 亿用户，每人用语音功能 3 分钟，那么如果用 CPU 来支撑这个规模的运算，需要多少算力？计算结果让我吓了一跳：仅仅是为了支撑这一项语音识别服务，谷歌就需要把现有的计算机数量翻倍。

这显然是不现实的。就算成本上可以承受，时间上也来不及。而且我们当时已经意识到，更大、更强的神经网络将会在更多领域发挥作用。于是我把这个粗略的计算做成了一张幻灯片，这也成为了谷歌启动自研定制芯片项目的契机。我当时的直觉是，神经网络其实有很多独特的特性，适合针对性地设计硬件：首先，神经网络的运算类型并不多；其次，它对低精度计算的容忍度很高，因为低精度带来的误差相当于给模型加入了噪声，而神经网络本身就对噪声有一定的鲁棒性。

Jeffrey Hinton：另外，你也不需要纠错。就算内存里的一些比特出现错误，对最终结果也不会有太大影响。

Jeff Dean：是的没错，这就好比模型训练中的随机失活技术，或者对抗性内存技术。所以我当时认为，我们应该启动一个硬件研发项目，初期先聚焦于模型推理环节。因为如果要将 AI 技术大规模推向用户，推理阶段的算力压力会是最大的。当时谷歌威斯康星州的硬件团队，其实已经有人在研究用现场可编程门阵列（FPGA）来加速神经网络运算。但经过讨论，我们认为直接研发专用集成电路（ASIC）会是更好的选择。因为现场可编程门阵列存在固有的性能损耗，这种损耗会抵消掉很多潜在的性能提升。最终我们推出了第一代 TPU，它是一款用于推理的 PCIe 插卡式芯片。

当时我在走廊里拦住了谷歌的首席财务官 Patrick Pichette，说服他批准了 5000 万美元的预算，用于在谷歌数据中心部署这款芯片，尽管当时我们还不完全确定这些芯片具体能用来做什么。后来的事实证明，这个决定非常正确。这些 TPU 被广泛应用于语音识别、计算机视觉等多个领域，还助力谷歌推出了质量更高的翻译服务。之后，谷歌的硬件团队开始将研发重点转向模型训练。因为训练环节的算力需求规模更大，需要大量芯片协同工作，还需要超高速度的互联技术。这其实已经相当于打造一台机器学习超级计算机了。而现在，谷歌已经推出了多个世代的 TPU，一直在沿着这个方向不断迭代。

Jordan Jacobs：不过回到最开始的那个决定，你当时找到 Patrick，跟他说需要 5000 万美元预算的时候，具体是哪一年？

Jeff Dean：2013 年。

Jordan Jacobs：这么说，谷歌当时远远走在了行业的前面。

Jeff Dean：没错。因为我们当时就预见到，要把这些模型推向市场、支撑推理任务，算力需求会是天文数字，而自研芯片是解决这个问题的必经之路。后来我们在国际计算机体系结构研讨会（ISCA）上发表了一篇相关论文，这也是计算机体系结构领域的顶级会议。现在这篇论文已经成为 ISCA 历史上被引用次数最多的论文。论文里公布的性能数据显示，第一代 TPU 的性能，比同期的 CPU 和 GPU 高出 15 到 30 倍，延迟更低；而能效比（每瓦性能）更是提升了 30 到 80 倍。

Jordan Jacobs：这可是巨大的飞跃，足足有一两个数量级的差距。那么到了今天，谷歌拥有性能最强的模型，手握一支遍布全球、但主要集中在西海岸、伦敦、纽约等地的庞大团队，也就是 Gemini 团队。你们还有来自十几亿用户产品的海量数据，背后更有每年超过 1000 亿美元自由现金流的商业模式支撑。这样的谷歌，其他公司要怎么跟你们竞争？

Jeff Dean：加入我们就好。开个玩笑，其实我并不想空谈这个问题。但我确实认为，将硬件研发和模型研发整合在同一个组织架构下，对我们来说是极大的优势，因为这两者可以深度协同、共同演进。硬件研发的周期很长，作为硬件设计师，你必须预判这个飞速发展的领域在未来 2 到 6 年的走向，毕竟现在研发的硬件，要等到 2.5 到 6 年后才能真正投入使用。这是一项极具挑战性的工作。如果机器学习研究员能和硬件工程师紧密合作，一起发掘那些尚未成为主流、但前景可期的技术方向，提前在硬件层面为这些技术提供支持，就能让我们对未来有更清晰的把握。反之，如果没有研究员分享他们的机器学习理念，以及这些理念如何落地到硬件设计中，预判未来会困难得多。

Jeffrey Hinton：另外，用机器学习技术来辅助硬件设计，也带来了很大帮助吧。

Jeff Dean：没错。我牵头开展过一个项目，就是用强化学习技术来优化芯片设计中的布局布线环节。这项技术目前已经被用于三代公开披露的 TPU，还有几款其他类型的芯片。每一代芯片的优化效果都在不断提升，相比人类工程师使用传统计算机辅助设计工具的方案，表现更为出色。

Jordan Jacobs：这项技术是提升了芯片的性能，还是加快了芯片的研发速度？

Jeff Dean：两者兼具。

Transformer 的下一代，将是怎样的架构？

Jordan Jacobs：接下来我们把目光投向未来。如今这么多年过去，你们觉得整个领域接下来会走向何方？Transformer 架构会在不久的将来被取代吗？未来会是全新的架构，还是多种架构的融合？5 年、10 年、20 年之后，我们又会身处一个怎样的世界？

Jeff Dean：我觉得有几个方向非常有意思，也让我很期待。首先，我们发现，只要给当前的模型输入恰当的上下文信息，它们的表现就会非常出色。因为模型可以精准地聚焦于近期获取的信息，而不是被训练过程中吸收的数万亿个 token、混杂在数千亿个权重里的海量信息所干扰。所以我认为，探索扩展模型上下文窗口的技术，让模型能够处理数十亿甚至数万亿的 token，而不是现在的数百万，将会是非常有价值的研究方向。这很可能会彻底改变这些模型的应用场景，它们不仅能处理人工整理的小范围信息，还能直接消化海量的科学论文、视频等数据。当然，这也需要硬件领域的创新配合，比如研发能效更高、性价比更优的推理芯片，来支撑这些大模型的运行。这是我非常看好的一个方向。

其次，目前我们训练的大多数模型，都没有实现机器学习领域长期以来追求的持续学习能力。这些模型的训练过程是静态的，一旦训练完成、投入使用，就不会再随着服务用户的过程发生显著变化。这看起来似乎不太合理。

Jeffrey Hinton：但这么做其实有一个重要的原因：更安全，更容易测试模型的性能。如果让模型自主学习，你很难预测它会学到什么东西。

Jeff Dean：确实如此。但我还觉得，当前的模型架构还不够灵活，和大脑的运作方式相去甚远。我认为，设计更丰富的模型内部连接模式会是一个好方向。即便是现在的稀疏激活模型，也只是采用 “分支出多个同等规模的专家网络，再聚合结果，然后再次分支” 的模式，这种结构其实没什么新意。

Hinton 预测：AI 将让医疗、教育“巨变”

Jordan Jacobs：那我想请两位分别畅想一下，20 年后，这项技术会给世界带来哪些意想不到的改变？

Jeffrey Hinton：我可以用一本书的可能标题来概括：“要么全员幸福要么一起完蛋”。说实话，20 年后这项技术会产生怎样的影响，没人能说得准，尤其是对人类社会的影响。很明显，很多工作岗位会消失，但我们不确定是否会有新的岗位来填补这些空缺。但这并不是 AI 本身的问题，而是我们政治体系的问题。当生产力实现大幅提升时，创造的财富该如何分配？至少在美国，目前的政府体制并不适合解决这个问题。

Jeff Dean：去年，我和几位优秀的合作者一起，研究了 AI 可能对多个领域产生的影响。有些领域显然会迎来巨大的变革，比如医疗、教育，还有新型媒体内容的创作。但同时，我们也关注到了它可能对就业、虚假信息传播、地缘政治等方面带来的挑战。我认为，这些影响是一体两面、需要综合看待的。我最期待的一个方向，是 AI 如何加速科学突破。比如，帮助人类发现不同学科之间的潜在联系，这些联系可能是任何一个领域的专家都无法独自察觉的；或者，在某些领域实现科学发现流程的自动化。

Jeffrey Hinton：这些大模型的特点，就是能将海量知识压缩到数量相对有限的连接中，也就一万亿个左右。我们知道，要压缩海量知识，就必须找到不同知识之间的共性。所以我相信，在训练这些大模型的过程中，它们其实已经发现了很多人类从未意识到的共性规律。这些模型掌握的知识，远超任何一个人的认知范围。它们甚至可能发现了希腊文学和量子力学之间的关联，毕竟同时精通这两个领域的人寥寥无几。

Jeff Dean：对没错，这两个领域至少还共用希腊字母呢。

Jeffrey Hinton：是这样的。所以我认为，这些模型其实具有很强的创造力。很多人说它们没有真正的创造力，只是在复述已有内容，这纯属无稽之谈。正因为模型在做大规模的知识压缩，所以它们很擅长发现那些看似不相关的事物之间的类比关系。

Jeff Dean：对，这正是我想表达的意思。

Jordan Jacobs：如果沿着这个方向发展下去，我认为 AI 会彻底改变医疗领域，比如加速药物研发、消除疾病、实现个性化治疗，当我们对人类基因组有了更深入的理解之后，这些都将成为可能。医疗会是改变人类社会的最大突破口吗？

Jeffrey Hinton：我觉得教育领域的变革可能也不相上下。这两个领域都有很大的发展空间。以医疗为例，如果能让医生的工作效率提升 10 倍，我们并不会只保留十分之一的医生，而是会让所有人享受到 10 倍的医疗资源。教育领域也是如此。我们都知道，一对一的私人辅导效果最好。很明显，几年之内，AI 就能达到私人辅导老师的水平，而在那之后，它会变得比人类老师更优秀，因为它见过数百万学生的学习过程。未来，人类能够吸收的知识量也会大幅增长。所以我认为，这两个领域的变革将会非常惊人。

参考链接：

https://www.youtube.com/watch?v=ue9MWfvMylE

创作场景

百度入局后“形势不对劲”，拍卖当场叫停！Hinton 与 Jeff Dean 首曝：64 岁实习生，为“开心”与 200 万美元算力押定谷歌