清华大学教授黄民烈：如何把大模型“调教”成我们放心的样子

OpenAI 安全团队与公司高层的矛盾由来已久，随着首席科学家 Ilya Sutskever 的离职，大模型的安全问题再次成为舆论中心。业内对大模型的安全问题也形成了两派：一派以杨立昆为代表，他们认为对于安全的紧迫感是过度夸张，另一派则是像 Ilya 等人，坚决认为安全问题刻不容缓。

当我们把视线聚焦到国内，国内对大模型安全问题的容忍度其实更低，当然基于文化不通，对于大模型的监管的侧重点也不同。在 6 月 6 日的 CCF 大模型论坛上，清华大学长聘教授黄民烈介绍了自己正在做的研究课题，几乎都是围绕大模型安全问题。

黄民烈教授表示，超级对齐（Superalignment）不仅是安全，本质上应该是怎么样实现自我进化、自我迭代的学习过程，安全问题只是超级对齐的一个外显性质。

超级对齐技术如今面临着挑战，比如处理不准确的奖励模型和弱标签分类问题等。在现有体系里，不可能一下子就把超级对齐系统做出来，但要从解决小的问题开始，才能逐步实现这样的能力。

黄民烈教授介绍道，目前在超级对齐框架下，其研究团队做了精确对齐算法 EXO，确保在理论上有精准的对齐效果。针对大模型攻击，团队做了目标优先级优化（Goal Prioritization），同时研发的模型安全探测器 ShieldLM，可以判断输出内容是否安全。

此外，团队还研发了能够弥补人写 Prompt 与模型更能理解的 Prompt 之间差距的黑盒提示优化（Black-box prompt Optimization），团队还在自动修正模型弱点方面做了大量研究，通过该方法来改进模型的潜力。未来，团队还将在 Reward function 鲁棒性、Human AI 协作和识别新风险等方面继续研究。

在活动现场，AI 前线有幸采访了黄民烈教授，他向我们分享了自己在大模型安全和发展方面的看法。黄民烈教授认为，安全问题并没有被夸大，边发展边监管的思路是对的，企业也需要做相应的投入。同时，黄民烈教授也提到，未来是机器智能、情感智能、社交智能融合在一起的智能，多模态融合、具身智能也是重要的发展方向。以下是采访文字整理。

“大模型安全并没有被夸大”

InfoQ：像 OpenAI 的很多技术专家因为安全理念不同离职，为什么他们对安全问题如此坚定？安全问题是否被夸大了？

黄民烈：我认为现在大模型安全还是一个比较重要的问题，因为大模型的应用范围实在是太广了，比如很多诈骗、多模态大模型出来之后的 deepfaker、利用大模型作恶，像做炸弹、造冰毒，甚至 PUA 别人，做精神信念上的 manipulation，这些其实都是大模型很擅长的地方。而且，我们可以看到最近的大模型有各种各样的漏洞，通过越狱劫持等手段能够越过一些安全屏障。所以，安全问题我认为并没有被夸大。

然后像 OpenAI 的问题，现在是产品和安全之间的一些冲突。它在产品商业化上追求快速奔跑，那安全其实是给它上保险的。这里边会有一些冲突，但安全问题本身其实非常重要的。

InfoQ：当前国内对安全问题的重视程度如何？

黄民烈：大模型安全问题是属于大模型监管的主要内容之一，比如我们不能有意识形态错误、涉政等问题，也会有一些技术手段做相关检测。

监管对很多公司都有安全合规要求，比如大模型备案、应用部署时的安全合规要求，这个要求其实是很高的。

企业也是在训练之初就开始将安全纳入研发中了，比如在训练数据的过滤、清洗层面就要考虑了，然后在 SFT 、人类对齐阶段也要考虑，同时检测输出内容上也会有检测。

国外对于种族歧视、性格歧视，就非常严格。国内外的侧重点不一样，但是整个大的安全图谱基本是一致的。

InfoQ：OpenAI 在超级对齐的论文里表明是让 GPT-2 监督 GPT-4 训练，这会不会有点像小学生指导高中生？这种方式的可靠性是如何保证的？

黄民烈：这个只是当下的一个类比，就是说用一个小的、弱的模型提供监督，然后看能不能让大的模型变得更强。但其实我们现在还有很多问题没有搞清楚，比如这个弱模型是不是真的能够发现强模型一些不擅长的地方，尤其是当两个模型不是一个模型簇（model family）的时候，它是不是能做这样的事情挺不好说的。

所以，这里面依然有大量的研究问题，但这只是 OpenAI 做了一个非常简单的尝试，我们不应该在这个时点上判断这条技术路径是行不通的。这个探索目前本来就很少，我们其实还可以做很多，比如这个模型在不同的任务上训练会怎么样、在不同的模型簇上训练会怎么样等等，还有大量的研究值得我们去做。

InfoQ：业界还有哪些方式来防止大模型“失控”？

黄民烈：训练数据的处理、安全对齐、输出的检测。数据的处理和过滤，确保价值观和意识形态等没有问题。在对齐阶段，要充分考虑安全性和有用性的平衡。输出的检测上要确保安全合规。每个阶段都有重要的算法和工程问题。

InfoQ：有学者提出，OpenAI 事件反映出来的是关乎 AI 创新发展方向的根本性辩论——是“有效加速”，还是“超级对齐”。您对此是否认同？

黄民烈：首先，边发展边监管的思路肯定是对的，监管的目的是为了更好地促进发展，我觉得这个肯定逻辑是没有任何问题的。

但我们现在的问题就是 OpenAI 的事件并不是说安全不重要，它实际上是商业逻辑和监管逻辑、治理逻辑之间的冲突。它人员的出走是因为组织斗争和政治斗争，跟安全本身的重要性，其实关系没有那么大。他们加入了 Anthropic AI 之后重新领导安全和超级对齐的工作，其实是非常重要的一个事情。所以我觉得这件事情的重要性和前瞻性不需要质疑。

当下，我们的思路肯定是因为模型的迭代速度非常快，所以我们对安全和超级对齐的研究也要随之跟上，因为能力迭代如此之快的情况下，它的攻击手段、漏洞、自我探测的手段其实非常非常复杂，要与时俱进。也就是说，超级对齐的研究一定要跟上模型本身迭代的速度。这是我的理解，它是一个需要持续关注和持续投入的过程。

InfoQ：现在的大模型安全，是不是掌握在公司手里？需要企业去投入？

黄民烈：投入肯定要投入，你没有办法不投入。不投入的话，安全就不合规，产品就会面临下线风险，所以这是必须要投入的一项，只是说有些东西我们可以采用第三方的安全组件，或者自研基本的安全能力，它是这样的一个逻辑。

InfoQ：那像国外的那些产品，比方说 OpenAI，公司的自主性可能会不会高一点？

黄民烈：那也要符合政府合规的要求，肯定得有基本的要求是必须满足的。

InfoQ：您在今年 1 月份发表的论文里验证了模型是可以区分有害信息和无害信息的，那为什么还会给出有害的回答？

黄民烈：语言有很多挑战性的、边界性的东西，它是没有办法完全避免的，而且层出不穷。现在的做法本质上是大模型被训练为遵循指令，但是如果我们只要把这种越狱攻击或者其他的攻击包装成一个指令遵循的格式时候，越强的模型它反而越容易听懂，越容易遵循你的指令。

所以这里面是什么呢？是一个矛和盾的过程，其实它本身既是矛又是盾。“矛”就是我已经被训练成听从指令了，“盾”就是攻击者被包装成一个指令遵循的形式。

InfoQ：那像谷歌应该前段时间爆出那些模型问题，这个其实这个可能不涉及到攻击。

黄民烈：这可能就是本身训练数据的 bias 问题，训练数据有偏置，比如训练数据有大量的白人，那用户说我需要一个黑人头像，它也会输出一个白人，这是机器学习本身的一些数据偏置、归纳的偏置等导致的。

InfoQ：论文提出的安全提示优化方法 DRO 是不是已经有相关应用了？

黄民烈：没有，现在还只是科研的阶段。它是一个算法，能够让模型变得更安全一点。

“情感是未来 AGI 里的重要因素”

InfoQ：您当初为什么会对人工智能里的情感分析研究感兴趣?

黄民烈：其实我们对这个感兴趣很久了，1966 年最早的对话系统就是用来做心理咨询的。现在的大模型怎么理解社交智能、情感智能以及机器心智是非常重要的一个研究方向，我们最近也在做一些相关工作，有一些比较有意思的结果出来。

我认为情感是未来 AGI 里边很重要的一个因素，一方面是机器智能，另一方面是情感智能。机器智能就是帮助提高生产力、创造力，情感智能则帮助提升情感理解能力，理解别人的信念、意愿、意图等。所以，把机器智能和情感智能结合在一起，才是真正通用人工智能。

InfoQ：就像科幻影片里边那些机器人？

黄民烈：对，GPT-4o 发布会的内容，其实就是这样的一个场景展示，它可以帮你完成任务，也可以与你共情，有非常好的类人沟通和交流，这是一个很自然的未来人机交互的场景。我觉得这也指明了未来的一个方向，即一定是机器智能跟情感智能、社交智能融合在一起的。

InfoQ：您理解的一个 AGI 具体场景是什么样子的呢？

黄民烈：是人类的超级助手，这个超级助手不仅可以给你完成任务，也可以陪你、给你提供情绪价值，陪你说话、陪你聊天、陪你解闷、陪你解压。

InfoQ：那其实有点像克隆了一个人？

黄民烈：也可以这么理解，包括它能记住你的一些背景信息，比如你昨天跟它聊了什么、前天聊了什么、一个星期之前你做了什么等。这也是一个智能体的概念，它有记忆能力、有执行能力、有规划的能力，然后有各种各样的情感能力。

InfoQ：那人形机器人是必须的吗?

黄民烈：人形其实不重要，人形只是它外部的一个展现形态，本质是大脑以及五官，比如视觉、听觉等，但这些东西肯定需要有一些外部硬件执行上的支持，因为这件事情可能很多东西呈现不好。但是我们有一个虚拟的、数字的，也能够非常好地陪伴和交流。

InfoQ：人工智能陪伴，现实中需求量很大吗？

黄民烈：这个需求量很大。我可以这么说， AI 会比 80% 的人类更能够提供情绪价值。这种情绪价值在现实生活中，比如你在你的朋友、伴侣那里是得不到的，但是这个 AI 能够提供。

InfoQ：那会不会我被包裹在“我喜欢听的话”里？

黄民烈：这个取决于你怎么去设立这个 AI，在你需要更多信息时，它也能够主动给你推荐更多信息，不一定只是哄你，还能理智地劝导你，然后给你一些额外建议等等。当然，这也和我们算法本身的偏置、公平性等因素有关，需要从算法层面避免进入信息茧房。

InfoQ：现在的大模型对于我们说的实现 AGI 需要的水平还有多大差距？

黄民烈：我们现在还是处在 AGI 的早期。AGI 还需要一个明确的定义，OpenAI 和 Gary Marcus 给了一些定义，但其实是很笼统、很抽象的定义。未来，什么是 AGI？我们还需要进一步探索，比如 AGI 的一些关键维度、关键特征，但我们现在其实还处在相对的早期阶段。

整个 AI 发展历史上有很多智能的不同方式，比如符号主义做出来的智能，以感知为主的智能，如人脸识别、视觉识别与认知智能。我们现在处的这一代，就是以数据、知识、算力、算法为核心的认知智能时代。这个时代里，大模型是其中的一个代表，但不是唯一路线，它只是一条目前来讲相对比较成功的路线。

InfoQ：现在大模型又开始朝着多模态发展，但有人认为多模态并没有带来技术惊喜，更多是工程手段（如 GPT-4o）。您如何看待这个观点？

黄民烈：我觉得这是片面之词，真正的把各种模态放在一起，里面到底有什么样的工程和技术难点，目前是未知的。能够做到像 GPT-4o 那样，能够有非常好的风格，我觉得没有那么容易。所以虽然大家觉得没什么，但是我不这么看，这里面其实有很多很多的技术、工程难点，算法上也有不少的挑战。

大模型未来趋势

InfoQ：那如今基础模型自身能力的迭代速度是不是已经放缓了？为什么？您如何看待未来大模型技术的发展？

黄民烈：任何一个技术的发展，一定是会经过快速发展期，然后到瓶颈期。

某个技术一开始没有，然后突然出来一个 60 分、 70 分水平的，那大家就会感觉很惊艳。但到 80 分、90 分时，这个边际的效应已经在递减了，90 到 99 分的水平更是递减，同时推动分数增长所需要的技术、算力、智力也在越来越大。

从性能指标来讲，大部分大模型现在已经进入到了 90 分水平，所以你从 90 分提到 95 分，肯定比从 70 分提到 90 分要难得多，而且可能也要慢。这是任何技术从初创期到成熟期，然后到平台期，都会经历的必然历程。

InfoQ：您平时会用大模型来做些什么？

黄民烈：我们是从一个技术从业者的角度去用，更多地探索它的边界，看看这个模型在哪些方面做得不太好，这是我们最关心的。至于那些常规任务，我们都知道它能做得很好，我们就不会太从一个使用者的角度去用，而是从技术研究角度看它的边界在哪里。不断拓宽这个边界是我们的任务和使命。

InfoQ：除了安全，大模型还有哪些方面做得不太好？

黄民烈：不太好的地方也很多，推理可信度、可靠性、幻觉等，这些目前还有很多优化空间。我自己其实关心的是怎么能让这个模型能够自我进化、自我提升，然后自动发现模型的漏洞，然后不断提升模型自己的能力和水平。

InfoQ：您对未来的大模型发展方向有哪些预测？

黄民烈：首先，我觉得未来肯定会是多模态融合的。然后，具身智能也是很重要的一个方向，通过跟物理世界的交互融合和映射去实现对整个物理世界的理解和建模，是很重要的能力，我觉得这是未来最终的方向。

另外一个方向就是，将工具属性和情感社交属性结合在一起，变成一个真正类人的智能体，这样它既有工具价值，也有社交和情感的价值，两者融合在一起后，就会变成一个真正 AGI 时代的 companion。

创作场景

清华大学教授黄民烈：如何把大模型“调教”成我们放心的样子

“大模型安全并没有被夸大”

“情感是未来 AGI 里的重要因素”

大模型未来趋势