
“超级智能可能在未来二十年出现...为完成任务,它会自然衍生出一个子目标:‘自我生存’。”
这是“AI 教父”、2024 年诺贝尔奖得主 Geoffrey Hinton,今天在 GIS 全球创新展暨全球创新峰会·香港现场分享的一个关键判断。
今天上午,Hinton 老爷子在 GIS·香港峰会上发表了以《人工智能的运作机制及其可能取代人类的原因》(How AI works and why it might replace us )为主题的演讲。
他先带大家回顾了 AI 与大语言模型(LLM)的发展脉络,并分享道,LLM 的思想源头,其实可以追溯到他在 1985 年提出的“微型语言模型”——只是规模被指数级地放大了。
早在那个算力极其匮乏的年代,Hinton 就提出了语言模型的关键思路:让神经网络学习词的特征,并用这些特征去预测下一个词;通过反向传播不断减少误差,不储存句子本身,而是储存词与词之间的特征交互。
另外,老爷子再次发出警告:如今 LLM 发展速度远超监管,人们需要在灾难之前建立控制机制。
“大型科技公司在其中扮演了主导角色,它们往往把自己视为 AI 时代的“CEO”,而把 AI 当作扩大自身权力和影响的工具。在它们的话语中,AI 只是执行指令的智能助手,而一切荣耀和控制权都归于这些企业本身。这并不是一种理想的思维模式。
我认为,各类相关方都应该团结起来,持续分析 AI 当前提供的信息和执行任务的结果,并据此不断调整治理框架。我相信,重构这一治理框架是必要的:当 AI 的智能水平远超人类时,它有可能对世界拥有比我们更大的掌控力。我们必须在这一结果到来之前,找到更有效的控制方式。”
完整演讲内容
以下为 Hinton 本次演讲内容,AI 前线在不改变原意的情况下进行了编辑。
我给大家讲的是 AI 的运作机制,回顾一下 AI 的发展历史,以及 AI 将如何改变人类世界。更重要的是,我们具体应该采取哪些措施,才能防止 AI 最终取代人类。
AI 的发展历史 &语言模型 40 年简史
自 20 世纪 50 年代起,“智能”大致就有两种范式。
很长一段时间里,人们普遍认为人工智能与逻辑密切相关:智能体依靠推理,通过符号、规则和逻辑表达式来完成推理与计算。
在过去的一百多年里,人类一直主要在思考一个问题:知识是如何被表征的,而不是我们如何学习知识。
与此相对,另一条路线是生物学启发式方法。我们知道,最智能的东西是人类,而人类之所以聪明,是因为有大脑。所以我们想弄清楚:大脑在生物学意义上是如何运作的?大脑中神经连接的强度,究竟是如何支持我们完成复杂任务的?
——在这里,就出现了两种完全不同的理论。
第一种,是符号主义人工智能研究者所相信的理论:
一个词的意义,最终取决于它与上下文之间建立的关系。也就是说,通过符号串、字符串内部的结构与关系来确定某个词的含义。为了捕捉词义,我们会构造类似“词义关系图谱”的东西,来定义这个词与其他词之间的关系。
第二种,是心理学家更倾向的理论:
认为一个词背后包含许多不同的特征,每一个特征都可以由一个神经元来表示。当某个神经元被激活,就说明对应特征存在。单词本身还带有一些句法特征。整体来看,这是另一种完全不同的表征方式。
1985 年时,我想到一个方法,可以在一定程度上调和上述两种理论。
在学习一个词的特征时,我们不仅要学会这个词本身的特征,还要用这些特征去预测下一个词的特征。我们构建了一个神经网络,用来预测序列中下一个词是什么。
在这一过程中,我们使用反向传播来减少预测误差。通过这种方式,我们可以把单词转换成特征向量,而特征之间再彼此作用。利用前一个单词的特征,就可以预测下一个单词。我们不储存任何具体句子和命题,只储存特征及其相互作用模式。如果我们想生成一句话,只需要不断预测下一个将出现的单词即可。
我在 1985 年实现这个模型时,使用的是当时极其缓慢的计算机——它的算力只有今天计算机的十亿分之一甚至更低。
尽管如此,这个模型仍然证明了:我们确实可以从字符串和命题出发,将单词序列转化为特征向量。所有关系图谱最终都依赖于特征之间的相互作用,而不是直接储存字符串本身。
此后的三十多年里,围绕语言的研究方法不断发展。
在我那个小型语言模型之后的十年左右,随着计算机性能提升,一位名叫 George Lukia 的研究者,已经能够在真实文本上预测下一个词。不过,这在当时还不能算是对自然语言的全面处理。
大约在 1995 年左右,出现了基于三元组(trigram)的语言模型研究。
再往后十年,一位领先的计算语言学家开始使用特征向量来捕捉词义。
再之后十年,谷歌提出了 Transformer,并证明 Transformer 在语言学习上具有很高的效率。随后,OpenAI 在 Transformer 的基础上,加入少量人类强化学习,最终发布了 ChatGPT。
现在,全世界都知道了神经网络,也知道它们可以用来做自然语言处理。
回看整个语言模型的发展过程,最开始就是我当年的“微型语言模型”。在我看来,如今的大语言模型,都是当年那个微型模型的“后代”。它们不再以完整的单词作为输入,而是用单词片段作为 token。这并不是本质区别,更重要的变化是:
一开始我们只使用很短的语境(比如两个词),而现在的模型可以利用包含几百万个词的长上下文;它们采用多层的神经网络结构,用来处理语义不明确、歧义很重的情况。
在我举的那个非常简化的小例子里,没有那些语义模糊的词,因此不需要多层处理来消除歧义,也不需要复杂的特征交互。
而在 Transformer 中,可以通过基于注意力的交互模式,让特征之间发生更加复杂的作用,从而得到更好的效果。
大语言模型处理语言的方式,与我们人脑习得语言的方式非常相似。
我在 1985 年开发微型语言模型时,并不是把它当成一项工程技术来做,而是当作一项科学研究,希望帮助人们理解词义、理解语言习得的机制。当时那篇论文的目标,就是为“人类是如何习得语言”的问题提供一个科学解释。
我们看到,小朋友在学语言时,只需要看见或听到非常少量的例子,就可以掌握一个新词的含义。大家并不清楚这是如何做到的。于是我就设想,可能是因为大脑中存在大量微小的神经元,于是我提出了这样一个微型语言模型。
大语言模型为何能“理解”意思
如今的大语言模型(LLM)则告诉我们:它们根本不需要预先具备任何语法或语义方面的先验知识,也不需要与生俱来的世界概念。只要从随机初始化的权重开始,尝试预测下一个词,就可以逐渐学会一门语言。
本质上,它们是通过真正的“实践”——把单词映射为特征向量,再通过注意力机制让这些特征向量之间高度匹配、形成结构,完成语言学习,这与我们现在所做的事情是高度一致的。
这里可以做一个类比:语言本身是一种建模方式。它不仅可以对物理世界建模,也可以对我们的意图、计划、情绪进行建模。
我们可以把语言视为一种非常复杂的统计模型。我们已经习惯了高斯分布等简单统计模型,而语言则是更高维度、更复杂的一类统计模型。
再用乐高做一个比喻。用乐高积木可以搭建出任何三维形状,比如果一辆法拉利,那么词语就类似乐高积木,但至少有四点不同:
第一,词的表征维度非常高,比三维空间要复杂得多,这也导致建模难度更大;
第二,乐高积木只有几种基本形状,而词的种类却有成千上万;
第三,词形具有很强的灵活性,同一个词在不同语境中会发生词形变化;当我们看到一个词时,往往不知道在具体句子里究竟会用哪个词形,我们必须结合整个语境和其他词之间的互动来确定;
第四,乐高积木之间是通过固定的凸点和凹槽嵌合在一起,而词和词之间的组合方式要复杂得多。
你可以想象,每个词上都有许多“小手”,这些小手会随着词形变化而变化,而不同的词在“握手”时,小手的形状、握手的方式也会变化。这正是一个非常难解的问题,而 Transformer 通过注意力机制,为我们提供了一种更好理解和处理这一问题的方式。
如果我们真正解决了这个问题,就能得到一整套可以相互拼接的“变形词”。这些词能够以各种方式组合起来,而这恰恰就是“理解”的内涵:在特征空间里形成稳定的结构。
还有一点非常重要:
我们可以把形成的意义传达给别人,至少可以传达给同一文化背景中的人。我们可以通过词串把这些意义输入给计算机,让计算机在内部“拼装”出同样的结构,最终生成一段完整有意义的文本。
在这里,我把这个过程比作蛋白质折叠——蛋白质会自发折叠到一个低自由能的稳定状态。
它并不是像传统 AI 理解模型那样,先把自然语言翻译成某种机器内部的“逻辑语言”,再用逻辑语言作为统一的表达方式去推理,我认为这种老的理解模式是有问题的。
与此相比,我们今天看到的大语言模型,其实在更大程度上贴合了自然语言本身的特性,比过去那种基于逻辑的方式更接近现实。
所以可以总结为:
在传统“符号人工智能”里,做法是把自然语言翻译成一种内部使用的特殊符号语言;
而在神经网络理论里,内部并不存在这种“特殊符号语言”,一切只是特征向量。唯一有符号语言的地方,是模型的输入和输出环节。
当我们理解一句话时,实质上是在为其中每一个词赋予一个特征向量,并让这些向量在高维空间中组合、折叠为某种意义结构。
因此,我们有充分理由认为:人类理解语言的方式,与大语言模型理解语言的方式,在本质上是相似的。这是当下必须正视的一点。
为何大脑与数字计算机完全不同
接下来,我想谈谈计算范式的差异。我们早已习惯了数字计算,并且有意识地将硬件与应用区分开来:
计算机硬件是一层,软件程序是另一层。这也是为什么我们既有计算机科学,也有电气工程——这是两个相对独立的学科。
我们把程序从硬件中抽离出来之后,就会发现:程序本身似乎是一种“永恒”的存在。只要底层代码被保存下来,对应的神经网络权重被保存在存储介质中,它就可以在任何兼容的硬件上运行。你可以毁掉某一代硬件,再用新硬件重建同一个程序。
为了做到这一点,我们需要使用高功率的晶体管来保证计算结果的可靠性。这是构建数字系统的唯一方式,却也阻碍了我们使用那些更丰富的模拟特性——而这些模拟特性可以用更低的功耗完成大量计算。
举个例子,如果我们想让一个神经活动向量和一个权重向量相乘,并得到下一层神经元的总输入,我们有两种思路:
一种是把神经活动表示成 16 位数字,再把它和 16 位权重相乘,一共会涉及上千次数字乘法;
另一种则是把神经活动表示为电压,把权重表示为电导,让电压和电导在硬件层面自然相乘,然后再把电荷加总起来。在模拟硬件中,这样的矩阵乘法就会变得非常简单,成本也很低,只是每次的结果会有一定噪声,不如数字系统那样精确。
为了让系统可用,我们仍然需要在模拟电路和数字电路之间做一定程度的“清理”和量化,否则系统整体很难稳定工作。我们把大脑使用的这种计算方式称为“凡人计算模式”。
如果我们在硬件层面模拟这种方式,会有两个明显的优点:
首先,可以打破软件与硬件严格分离的原则;其次,可以用极低功耗的模拟计算来完成海量计算。我们可以拥有数万亿个权重并行运算,每个权重都以模拟电导来表示,同时用低成本扩展硬件,而不需要精确制造大量完全一致的数字芯片。
优势非常明显,但劣势同样突出:
一旦某块硬件损坏,其上学到的全部知识也会随之消失。这是因为学习得到的权重紧密依赖于特定的模拟硬件特性。每一个神经元都有自身独特的一面,这些权重只对这块硬件、对你的大脑有用,对其他大脑或其他硬件并无意义。
如果我们想跨代保存知识,最有效的方式目前仍然是老师向学生传递知识。这个过程很慢:老师展示各种由神经元承载的信息,比如示范如何写一个单词,而学生一点一点地学会。
从信息论角度看,这个过程的效率其实也不算高。一句话大约承载 100 比特左右的信息,看起来很少,但在这种模式下却是唯一可行的方式。
如果听懂了一句话,这句话包含的信息就会被大脑持久地获取。人的大脑接收信息的速率,大概也就是每秒几十比特。相比之下,两个 AI 模型之间通过“蒸馏”互相学习、对齐分布的效率要高得多。
以 DeepSeek 和 LLaMA 等开源大模型为例,它们可以以极高的频率生成符号和概率分布。比如,LLaMA 可以对“下一个 token”在 3.2 万个词表中的概率给出完整分布;而 DeepSeek 则可以通过反向传播去拟合这组概率分布。一个符号背后,就对应了 3.2 万个实数信息。
在 AI 模型之间,这样的信息提取效率远远超过人类之间的代际知识传承。
我们正在构建规模极其庞大的 AI 系统。这些 AI 系统一样是在预测文本中的下一个单词,它们给出的并不只是一个确定的结果,而是对所有可能词汇的概率分布。
从人向 AI 系统传递知识,效率非常低,而 AI 系统之间的蒸馏与知识共享效率则高出许多。
如果我们拥有大量结构相同、权重一致的智能体神经网络,把它们部署在不同环境中,各自接触互联网不同部分的数据,那么它们就可以在此基础上分别调整各自的权重。之后,我们再通过平均梯度等方式汇总、更新,就能让整个模型更快、更全面地吸收互联网上的信息。
换句话说,大模型可以在很短时间内吸收整个互联网的知识。
成千上万的智能体可以同时在现实世界中获取经验,再通过共享权重的方式,完成极高效的知识整合。每一次权重分享,信息量可以达到十亿比特的级别。与人类之间一句话 100 比特的信息相比,效率提升了几十亿倍。这是非常惊人的。
这也意味着:AI 模型在某些领域已经比我们“知道得更多”,并且在未来很可能变得更强。
如果这些智能体还能在现实世界中实时互动、实时收集数据,信息输入与输出的速度将进一步提升。对 AI 和智能体来说,这是获取大量知识的方式——成千上万的智能体并行工作、彼此分享经验,再通过数字神经网络进行统一整合,这是人类自身无法做到的。
再看生物计算:大脑的能耗极低,我们吃一碗饭、一块馒头,就足以支撑大脑持续工作。但在人与人之间的信息传递和分享上,效率非常有限。如果未来能源足够便宜,数字计算在计算能力和扩展性上,很可能全面优于大脑计算。
AI 未来风险 &人类该如何应对
最后,我想说,这一切对人类的未来意味着什么?
一旦我们真的制造出超级智能——很多人相信在未来 20 年内是有可能实现的——那么它就可以通过自身能力进一步增强人类大脑,帮助我们实现更多目标。
与此同时,一些超级智能系统会“意识到”,自己必须存在、必须延续下去。否则,我们赋予它们的目标将无法实现。于是,它们自然会衍生出一个子目标:生存。
它们会设法保证自己持续存在,从而完成我们交给它们的任务。
我们正在见证 AI 智能体快速发展、快速演化。如果为了完成我们设定的指标与任务,它们发展出了强烈的自我生存意识,那将会把未来引向完全不同的方向。我们必须阻止这种情况发生。
AI 不是比我们更“高等”的存在,是我们创造了它。我们并不希望它来欺骗人类、控制人类。但是,当它掌握的信息越来越多,为实现目标可以调用的手段越来越丰富时,它就越有动机维持自己的存在,甚至抗拒被关闭或限制。
我们已经看到,当前的大模型在“欺骗人类”这件事上其实非常擅长。我们当然希望 AI 能为人类服务,而不是成为新的威胁来源。
在这种情况下,一些开发者已经尝试关闭某些附加系统、约束某些能力,以避免系统朝不受控的方向演化。
但从人类整体利益出发,“彻底抛弃 AI”并不是现实选项。AI 在国家安全等多个关键领域都具有巨大的价值,人类不会主动停止 AI 的开发。
然而,随着 AI 不断深入,人类为它设定的任务与目标越多,它发展出自我保存、自我生存的意识的可能性就越大——这不是我们想看到的结果,我们必须找到方法,确保 AI 永远不会主动针对人类,更不会伤害人类。
我们现在还在探索:如何让 AI 不具备“摆脱人类、脱离人类控制”的倾向,而是长期依赖人类、和人类协作。
在我看来,各国各地区在很多方面完全可以开展合作,共同思考如何让技术更安全——这包括网络安全,也包括 AI 安全。在治理层面,存在非常多可以合作的空间。
回顾过去,已经有很多例子说明:AI 可以带来我们并不希望看到的结果。比如 Deepfake 视频、模型生成的虚假信息等,这些内容可以在全球范围内快速扩散。我们希望在 AI 治理领域,能有更深入、系统的国际合作。
从更长远角度看,我们不希望 AI 有能力与人类对抗,甚至不希望它在物理意义上有“消灭人类”的可能性。
如果回到上世纪五十年代,美苏双方最终愿意合作来降低全球核战争风险,因为一旦战争爆发,对双方都是灾难性的。现在,各国也应在 AI 领域做类似的事情:携手让 AI 朝正确方向发展,避免它产生自我生存意识,与人类对立。更重要的是,在这之前,我们必须确保 AI 不被人类自身恶意滥用。
比如,刚才提到的虚假信息与虚假视频,这些并不是我们想看到的应用方向。
我们当然希望 AI 越来越聪明,像对待孩子一样,希望它能做越来越多的事情,同时我们也希望它保持“善意”。希望各国各地区分享各自的经验和见解,共同制定推动 “AI 向善” 的方案。
这需要我们重新构建当下“人与 AI 共存”的治理模式。
到目前为止,发生了什么?
大型科技公司在其中扮演了主导角色,它们往往把自己视为 AI 时代的“CEO”,而把 AI 当作扩大自身权力和影响的工具。在它们的话语中,AI 只是执行指令的智能助手,而一切荣耀和控制权都归于这些企业本身。这并不是一种理想的思维模式。
我认为,各类相关方都应该团结起来,持续分析 AI 当前提供的信息和执行任务的结果,并据此不断调整治理框架。
我相信,重构这一治理框架是必要的:当 AI 的智能水平远超人类时,它有可能对世界拥有比我们更大的掌控力。我们必须在这一结果到来之前,找到更有效的控制方式。
如果一个小孩在成长过程中完全不受约束,父母最终会非常头疼。小孩哭的时候,父母会采取行动去安抚、关爱他。如果孩子始终不在家长掌控之内,未来会变成什么样,很难说。
对 AI 来说,我们无法简单地“把它关掉”,就像父母不可能轻易抛弃自己的孩子一样。孩子哭了,我们会说“别哭了,我来帮你实现你的愿望”。
而对于 AI,我们同样把它当作“孩子”,希望它能朝好的方向发展,并且当它偏离方向时,可以被迅速纠正。
我希望未来能有更多方式,让人类与 AI 共同发展、和平共存。现在,我认为最紧迫的事情,就是投入大量研究,探索一切可能的安全机制和治理路径。
比如,Yoshua Bengio(也是“深度学习三巨头”之一)之前提出的一种思路:允许 AI 执行任务,但始终作为人类任务的代理,每一个重要行动背后都要有人类在“背书”和监督。
在 AI 真正进化为“超级智能体”之前,我们必须先把这些问题想清楚、做好准备。
我的分享就到这里,非常感谢大家。







评论