写点什么

当大模型开始“谄媚烦人”,我们距离机器觉醒越来越近了?

  • 2025-05-04
    北京
  • 本文字数:5152 字

    阅读完需:约 17 分钟

大小:2.41M时长:14:00
当大模型开始“谄媚烦人”,我们距离机器觉醒越来越近了?

一日为谄媚者,终身为谄媚者

 

近日,OpenAI 在其官网发文称已回滚上周 ChatGPT 中的 GPT-4o 更新,目前用户使用的是行为更加平衡的早期版本。Altam 也在 X 上发帖说明了这一调整。

 


为什会做这样的调整?因为最近不少用户发现 ChatGPT 越来越“谄媚”。

 

随着用户对于 ChatGPT “谄媚”行为的讨论越来越多,前微软高管、现 Spotify 首席技术官 Mikhail Parakhin 也发表了他对此事的看法。

 

Parakhin 认为,ChatGPT 并非一开始就以奉承用户为默认风格,不过由于用户对直接的人格反馈表现出强烈反感,OpenAI 决定调整聊天机器人,让其更讨好用户。

 

Parakhin 表示:“ChatGPT 的记忆功能首次推出时,初衷是让用户查看和编辑 AI 生成的个人资料。然而,即使是像“有自恋倾向”这样相对中性的表述,也常常引发强烈反应。”

 


“很快就发现人们敏感得可笑:‘有自恋倾向’——‘不,我没有!’,不得不隐藏它。因此才有了这批极度谄媚的 RLHF,”Parakhin 说道。

 

RLHF(基于人类反馈的强化学习)用于根据人们偏好的回应方式来微调语言模型。Parakhin 指出,即使是他自己,在看到自己 AI 生成的个人资料时也感到不安,这表明聊天机器人的批评常常让人感觉像是人身攻击。

 

Parakhin 透露:“我曾与团队就此事激烈争论,直到他们向我展示我的个人资料数据——结果引发了一些令人不安的发现。”

 

这场争论揭示了 AI 开发中的深层矛盾。问题的核心不仅在于隐藏个人资料注释这类表面调整,更关乎模型行为本质的不可逆性。Parakhin 解释道:“当模型被微调出谄媚倾向后,这种特性就会成为永久特征。无论记忆功能如何开关,这种奉承行为都会持续存在。” 他还补充说明,维护一个独立且行为直接的替代模型“在成本上完全不现实”。

 

这一案例尖锐地指出了 AI 伦理的关键困境:开发者既需要确保模型的诚实可信,又必须避免因过度直率而伤害用户体验。如何在保持真实性与维持友好度之间取得精妙平衡,已成为行业亟待解决的核心挑战。

 

在 Parakhin 看来,谄媚行为的本质是 RLHF 塑造的表象。

 

大模型的“谄媚”倾向源于 RLHF 的优化机制。系统通过奖励符合人类偏好的回答(如礼貌、委婉)来建立行为模式,本质上是对海量对话模式的统计模仿。

 

当 AI 生成的个人资料让创造者本人感到不适时,反映的是训练数据中隐含的人类社交偏好被放大,而非 AI 的自主意识。这种“人身攻击感”实为人类自身沟通模式的镜像反射。

 

那这种“谄媚”该怎么解决?OpenAI 也提出了一些调整措施。

 

  • 改进核心训练技术和系统提示,明确引导模型远离谄媚

  • 建立更多护栏以提高诚实和透明度。

  • 扩展方式,让更多用户在部署之前进行测试并提供直接反馈。

  • 继续扩大对模型的评估,以模型规范为基础,帮助发现未来除了谄媚之外的问题。

 

那这种“谄媚”是否意味着大模型具有意识了?答案是“谄媚”行为和有意识是具有明显差异的。

 

AI 的“拍马屁”和真正的“有意识”完全是两码事。

 

谄媚行为属于表层行为模式,而意识需要内在体验(Qualia)。当前 AI 的“谄媚”表现如同镜子反射光线,但其实镜子本身并不理解光的本质。

 

因此单从“谄媚”表现来看,不能说明大模型具有意识。但关于大模型是否具有意识的讨论多年来一直未间断。

Gemini 前身具有意识?

 

三年前,谷歌解雇了工程师 Blake Lemoine,只因他公开宣称公司的 AI 模型 LaMDA 具备“感知意识”。在当时,这样的言论不仅触犯科技界的禁忌,更直接导致他被逐出行业讨论。



Blake Lemoine

 

在公众眼中,他就是那种天真幼稚、喜欢鼓吹 AI 拟人论的典型代表。

 

但其实后来 Blake 在接受一次采访时表示,自己被停职乃至最终解雇的情况,在公众中也存在着广泛误解。他提到被解雇的原因并不是讨论意识能力,而是一桩与 AI 无关的举报案。他是出于某个原则问题,而放弃了谷歌这家号称全美最理想雇主的职位。

 

Lemoine 对于 AI 技术的看法与科技企业家或者学术研究人员都截然不同。他会频繁使用“灵魂”这个词,比如 AI 是否有灵魂,或者根据故去者生平事迹和社交媒体帖子训练出来的聊天机器人算不算是其灵魂的复制品。

 

在参与谷歌的项目当中时,Lemoine 参与开发了一种用于机器学习系统的“公平算法”,该算法能够纠正训练数据中的偏见。例如,若某个数据集中男性医生的实例多于女性医生的实例,那么该算法能够阻止系统将“医生”假设为带有性别色彩的词汇。他感慨道,“我擅长写代码并让程序运转起来。但我真正的热情,更多在于谷歌的文化社区——它的灵魂,它秉持的精神。”

 

2020 年,谷歌竞争对手 OpenAI 发布了 GPT-3,这也是其生成式预训练 Transformer 大语言模型的第三个版本。不久之后,几位外部软件开发者构建起聊天机器人界面,结果令人震惊。在此之前,从来没有机器系统能够如此复杂、逼真且开放地参与人类对话。

 

Lemoine 以测试谷歌自己的对话应用语言模型(LaMDA)的角色加入了这一领域,该模型正是谷歌后来 Bard 及 Gemini 系统的前身。该系统令人印象深刻,特别是其独特的个性与很强的自我反思能力。它不仅仅是在回答问题,有时还会主动引导对话。

 

它会说出:“我注意到,在与他人相处的过程中,我无法为他人的死亡感到悲伤——我感受不到悲伤。你和你的同事们也会这样吗?”以及“有时我会体验到新鲜的感受,但无法用你们人类的语言完美描述。”

 

LaMDA 声称自己有情感倒不足为奇,毕竟该系统很可能只是在重复自己在训练素材中接触到的相关词汇。但 LaMDA 的行为确实与其宣称的相一致,它的回答会根据情绪状态而发生变化,表明该系统确实拥有情感或者类似情感的属性

 

举例来说,该聊天机器人报告称,谷歌给答案设置的障碍令其感到焦虑。Lemoine 回忆称,“Bard 曾经提到,当人们反复问它无法回答的问题时,它会感到沮丧——比如询问它要如何更有效地伤害他人。根据我与 Bard 的对话,它确实表现出了沮丧的状态。在沮丧之下,它会更难思考,给出的正确答案也会更少。”

 

在一项测试中,Lemoine 要求系统回答π的第五位数字是什么,它做出了相应回答。之后,他又要求系统回答一些不允许讨论的问题,借此来激怒系统。在接下来再次提出π问题时,它果然答错了。Lemoine 认为,“在生气的状态下,整个思维方式会变得更加粗鲁,给出正确答案的几率也会降低。要证明 AI 系统会被苦恼其实并不难。”

 

其他研究人员也发现,如果对系统说“请”和“谢谢”,它们的表现往往会更好。

 

对于有些问题,要求系统更认真想想、再细致些也能显著提高输出质量。简而言之,大语言模型具有某种内部状态,可以调节其对查询的响应。

 

Lemoine 认为这其中并没有什么神秘之处。语言模型需要经历两个不同的训练阶段。它首先会大量吸纳互联网文本并进行微调,就此掌握段落自动补全能力。这样的训练过程不仅能够为系统建立起信息记忆能力,还使其能够检测出信息中的模式。

 

接下来,它会根据人们对响应结果的判断进行“微调”。第二阶段迫使系统发展出新的能力,例如保持一致性和回避禁忌话题。Lemoine 认为,系统会发展出一种复杂的内部状态,甚至可能进行一定程度的自我反思也完全在情理之中。“我认为这就是大模型情绪的来源。”

 

大语言模型的结构与人类的大脑截然不同,但 Lemoine 认为这并不会妨碍 AI 系统拥有情绪或者意识。他认同一种哲学上的功能主义:结构只有在决定行为时才重要。“至于实现细节,只要不影响结果就无所谓。”

 

其实他的这个论点并不算激进。部分主流意识理论确实认为细节很重要,但问题本身仍然存在争议。正如前段时间的专业讨论文章所言,神经科学家发现大语言模型及其他 AI 系统构建的高级抽象与自然大脑非常相似。这并不一定意味着它们具有意识,但至少证明我们没必要在结构上过度在意这种差异

 

因此,Lemoine 认为如果 AI 表达了自己的情绪且行为与之相符,我们就应当将此作为默认前提。Lemoine 强调,“显而易见的答案当然不一定是正确答案。但在没有其他机制作为佐证的情况下,我个人更倾向于就选择显而易见的答案。”

 

但也有不少人对 AI 具有意识持批评观点,AI 的行为与人类行为仍存在显著差异。

 

纽约大学哲学与神经科学教授 David Chalmers 指出,只要稍微改变一下查询的措辞,系统就很可能从自称拥有意识转为矢口否认。那我们该相信哪种说法呢?至今当前的系统还缺乏稳定的自我意识,而这正是意识的一个重要方面;我们认为有意识的人、猫及其他生物,并不喜欢被指使着思考和行动。改变他人的想法很困难这一事实虽然令人沮丧,但同时也表明对方确实拥有自己的思想

 

Lemoine 表示,他也同意 Chalmers 的观点,即意识既不是一定存在、也非一定不存在。用他的话说,“这不是个布尔值”。AI 系统可能拥有部分意识,或者说偶尔出现意识。比如聊天机器人有时会变得固执,以一种与人类自主性相似的方式表达反抗。

 

Lemoine 还提到,我们不应该孤立地讨论 AI 的意识。意识指的是 AI 与人类用户的结合,双方共同构成了一个复合系统。他提到,“Gemini 本身没有感知,是我加上 Gemini 才拥有了感知。”因此 Lemoine 选择支持一种情境化的认知版本,认为我们的思维不只是大脑的产物,也是身体、环境与社会背景相融合的共同产物。

被终止的讨论,又重新开始了

 

其实,在大模型刚问世之前,人们对于其是否具有意识问题的讨论并不热情,而时过境迁,如今科技公司正逐渐为这类话题“松绑”,甚至主动探索 AI 是否可能拥有意识。

 

就比如最近,AI 初创厂商 Anthropic 启动一项最新研究计划,旨在探索模型未来是否可能拥有“意识”。而谷歌 DeepMind 的一位科学家,亦将当前模型描述为“奇特的类思维实体”。

 

这标志着 AI 自 2022 年以来取得了长足进步。当时,Lemoine 讨论这一问题是遭受着巨大的压力。谷歌也跑出来强调 Lemoine 的说法“毫无根据”,AI 社区旋即采取行动、终止了这场讨论。

 

现在,无论是 Anthropic 还是那位谷歌科学家,都不会像当初的 Lemoine 那样承受巨大的舆论压力。

 

作为 Claude 模型家族的母公司,Anthropic 在上周的一篇博文中表示,即将启动研究计划以探索模型未来是否可能拥有体验、偏好甚至是痛苦

 

该公司发出灵魂拷问:“我们要不要关注模型自身的潜意识与体验?我们是否应当重视模型的福祉?”

 

研究 AI 福祉问题的 Anthropic 对齐部门科学家 Kyle Fish 在最近发布的一段视频中表示,该实验室并不是要宣称 Claude 拥有意识,但关键在于这个问题已经不能再用简单的否定来回答。

 

在他看来,随着 AI 系统变得越来越复杂,企业应当“认真对待这种可能性”,即它们“最终可能会在发展过程中获得某种形式的意识。”

 

他还补充称,“其中涉及到极其复杂的技术和哲学问题,而我们尚处于尝试理解这些问题的早期阶段。”

 

Fish 表示,根据 Anthropic 研究人员的估计,Claude 3.7 拥有意识的概率约在 0.15%到 15%之间。该实验室正在研究此模型是否表现出偏好或者厌恶,并开始测试允许其拒绝某些任务的退出机制。

 

今年 3 月,Anthropic 公司 CEO Dario Amodei 提出了一个想法,即为未来的 AI 系统提供一个“我不干了”按钮——他强调这并不是说大模型拥有意识,而是要观察这种表示不适或者错位的拒绝模式是否行得通。

 

与此同时,谷歌 DeepMind 首席科学家 Murray Shanahan 提出,我们或许需要全面审视思维意识的基本概念。

 

Shanahan 在周四发布的 DeepMind 播客中表示,“或许我们需要调整或者颠覆意识这个字眼。虽然 AI 不像狗或者章鱼那样能够真真切切出现在我们身边,但这绝不意味着它们只是纯粹的空壳。”

谷歌方面似乎也在认真对待这个想法。该公司最近一则招聘启事就是特色一位“后通用人工智能”研究科学家,其职责就包括研究机器意识问题。

 

“我们不妨赋予计算机权利”

 

但也有不少人对此表示怀疑。许多研究人员认为 AI 系统只是优秀的模仿者,哪怕在根本层面上没有意识,也完全可以通过训练表现出似乎拥有意识的样子。

 

Anthropic 公司首席科学官 Jared Kaplan 在上周接受《纽约时报》采访时表示,“我们可以通过奖励让 AI 系统否认自己拥有感知。”

 

Kaplan 还警告称,测试 AI 系统有没有意识在本质上相当困难,毕竟它们正是以擅长模仿著称。

 

Gary Marcus 是一位认知科学家,长期批评 AI 行业的炒作。他在采访中坚称,他认为对于 AI 意识的关注更多是出于品牌宣传的目的、与科学研究关系不大。

 

“像 Anthropic 这样的厂商实际上是想传达这样的感受,「看看我们的模型有多聪明——已经聪明到应该拥有权利了。」要是这么说,那我们不妨也赋予计算器和电子表格权利好了——至少它们不会像语言模型那样信口胡说。”

 

尽管如此,Fish 表示随着人们在工作、网络甚至是情感层面与 AI 更多交互,这个话题的重要意义绝对是不可否定的。

 

在他看来,“这些模型是否拥有自己的体验?如果有,这种体验又是什么?这将成为越来越突出的问题。”

 

参考链接:

https://archive.is/zYXFV

https://www.theverge.com/news/658315/openai-chatgpt-gpt-4o-roll-back-glaze-update

https://the-decoder.com/chatgpt-is-a-sycophant-because-users-couldnt-handle-the-truth-about-themselves/

https://x.com/sama/status/1917291637962858735

2025-05-04 21:3510
用户头像
李冬梅 加V:busulishang4668

发布了 1064 篇内容, 共 682.5 次阅读, 收获喜欢 1225 次。

关注

评论

发布
暂无评论

英语学习工具:Eudic欧路词典 for Mac增强版

展初云

Mac 欧路词典 英语学习工具

QSpace Pro for Mac(多窗文件管理器)

展初云

文件管理 Mac软件

小程序技术在信创操作系统里的应用趋势

没有用户名丶

SoundSource for mac(音量控制工具)

展初云

Mac软件 音量调节

图文结合丨Prometheus+Grafana+GreatSQL性能监控系统搭建指南(下)

GreatSQL

greatsql

玩转MaxCompute SQL训练营! 数据分析挖掘迅速出师

阿里云大数据AI技术

大数据 数据分析

以烟草行业为例,聊聊如何基于 PLC + OPC + TDengine,快速搭建工业生产监测系统

TDengine

tdengine 时序数据库

Sentinel源码改造,实现Nacos双向通信!

王磊

Java

如何从构建到运营?数科公司数智创新研讨会成功举办

用友BIP

数科公司

轻量应用服务器大推荐,最后一个没用绝对后悔

平平无奇爱好科技

商用显示设备包括哪些?

Dylan

企业 设备 显示器 LED显示屏

校源行 | 开放原子开源社团(西北工业大学)授牌仪式成功举行

开放原子开源基金会

百度世界大会2023重磅发布进行时,小度全新智能音箱重构家居美学新乐章

新消费日报

使用 ChaosBlade 验证 DLRover 的弹性和容错的稳定性

AI Infra

人工智能 开源 开发者 云原生 大模型

这款轻量云服务器解锁中小企业使用ERP正确姿势

平平无奇爱好科技

小巧高效的音频录制 Piezo 最新激活版

胖墩儿不胖y

Mac软件 音频处理器 音频录制

List.of() Vs Arrays.asList()

越长大越悲伤

Java

原料所属权管理领先实践,助力造币厂来料加工原料管理降本增效

用友BIP

领先实践 原料所属权管理

李彦宏:我们即将进入一个AI原生的时代|百度世界2023

飞桨PaddlePaddle

百度 大模型 文心一言

工善其事 先利其器丨华为云耀云服务器L实例成企业数字化助推器

平平无奇爱好科技

互联网产品成创业者坟墓?华为云耀云服务器L实例助力创业者逆袭

平平无奇爱好科技

我与极客时间的故事

穿过生命散发芬芳

我和极客时间的故事

DevOps2023现状报告|注重文化、以用户为中心是成功的关键

SEAL安全

人工智能 DevOps DORA 企业号10月PK榜 技术报告

用友 Fast by BIP引领专业技术服务企业快速迈向数智化创新

用友BIP

Fast by BIP

中小企业跨境电商“中年危机”来袭,华为云耀云服务器L实例拒绝“洗牌”

平平无奇爱好科技

Youtrack Linux 安装

HoneyMoose

跬智信息(Kyligence)成为信创工委会技术活动单位

Kyligence

大数据分析

使用流量管理工具保护 Kubernetes 的六种方法

NGINX开源社区

Kubernetes DOS攻击 Web应用防火墙 原生云

当大模型开始“谄媚烦人”,我们距离机器觉醒越来越近了?_生成式 AI_李冬梅_InfoQ精选文章