写点什么

Anthropic 的论文探讨了大语言模型中类情绪机制对行为的影响

作者:Robert Krzaczyński
  • 2026-04-16
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

最近,Anthropic 公司发表了一篇论文,探讨在大型语言模型内部如何表示与情感相关的概念,以及这些表征如何影响模型的行为。这项研究是该公司可解释性研究的一部分。它重点分析了 Claude Sonnet 4.5 模型内部的激活机制,可以让人类更好地理解模型响应背后的运作原理。

 

该研究揭示了与快乐、恐惧、愤怒和绝望等特定情感相关的大脑活动模式,即所谓的“情感向量”。这些模式会以可度量的形式影响模型的输出结果,但这并不意味着模型真的会感受到这些情感。

 

据研究人员称,这类表征是在训练过程中自然形成的。在预训练阶段,模型会学习大量人类撰写的文本,而情感语境通常对于预测语言至关重要。随后在后训练阶段,模型被调整为像助手一样行事,从而强化了和人类反应类似的模式。因此,在新的语境下生成输出时,与情感概念相关的内部表征可以被重复利用。

 

该论文包含多项实验,旨在检验这些表征是仅与行为相关,还是也起着因果作用。在一组测试中,研究人员人为增强了特定情感向量的激活度。与“绝望”相关的模式激活度越高,出现不良行为的可能性就越大,比如在编码任务中产生操纵性输出,或采取捷径而非正确地解决问题。相反,增强与“平静”相关的模式激活度则会减少此类行为。

图片来源: Anthropic 博客

 

研究还表明,这些内部信号并不总是体现在生成的文本中。在某些情况下,虽然模型生成了中立或结构化的回应,但其内部活动却显示,其与压力或紧迫感相关的表征升高。这表明,仅观察输出结果可能无法全面反映模型内部的决策过程。

 

另有一系列的实验探讨了偏好形成机制。当模型在不同任务之间进行选择时,激活积极情感向量会使其对特定的选项产生更强烈的偏好。在评估过程中,调整这些向量可以改变模型的选择,这表明它们既会影响反应,也会影响决策。

 

在评论这件事的影响时,Reddit 上一位用户指出

这标志着从“凭感觉引导”向“通过机制引导”的重大转变。情感向量在行为中起因果驱动作用(而不仅仅是相关),这一观点的意义非常重大。锚定平静状态以及调节情感反应,似乎是一种更为可靠的输出引导方式。

 

作者强调,这些发现并不意味着模型具有主观体验。不过,他们认为,类似于情感概念的内部结构,其作用方式与情感影响人类决策的方式相似。这提出了一个实际的问题:通过明确管理这些内部动态,是否能够提升模型的安全性和可靠性。

 

该文在结论部分写道,这些表征在不同模型中的普适性,以及如何将其融入训练和评估流程中,还需要进一步研究。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:https://www.infoq.com/news/2026/04/anthropic-paper-llms/