Anthropic 的论文探讨了大语言模型中类情绪机制对行为的影响

最近，Anthropic 公司发表了一篇论文，探讨在大型语言模型内部如何表示与情感相关的概念，以及这些表征如何影响模型的行为。这项研究是该公司可解释性研究的一部分。它重点分析了 Claude Sonnet 4.5 模型内部的激活机制，可以让人类更好地理解模型响应背后的运作原理。

该研究揭示了与快乐、恐惧、愤怒和绝望等特定情感相关的大脑活动模式，即所谓的“情感向量”。这些模式会以可度量的形式影响模型的输出结果，但这并不意味着模型真的会感受到这些情感。

据研究人员称，这类表征是在训练过程中自然形成的。在预训练阶段，模型会学习大量人类撰写的文本，而情感语境通常对于预测语言至关重要。随后在后训练阶段，模型被调整为像助手一样行事，从而强化了和人类反应类似的模式。因此，在新的语境下生成输出时，与情感概念相关的内部表征可以被重复利用。

该论文包含多项实验，旨在检验这些表征是仅与行为相关，还是也起着因果作用。在一组测试中，研究人员人为增强了特定情感向量的激活度。与“绝望”相关的模式激活度越高，出现不良行为的可能性就越大，比如在编码任务中产生操纵性输出，或采取捷径而非正确地解决问题。相反，增强与“平静”相关的模式激活度则会减少此类行为。

图片来源： Anthropic 博客

研究还表明，这些内部信号并不总是体现在生成的文本中。在某些情况下，虽然模型生成了中立或结构化的回应，但其内部活动却显示，其与压力或紧迫感相关的表征升高。这表明，仅观察输出结果可能无法全面反映模型内部的决策过程。

另有一系列的实验探讨了偏好形成机制。当模型在不同任务之间进行选择时，激活积极情感向量会使其对特定的选项产生更强烈的偏好。在评估过程中，调整这些向量可以改变模型的选择，这表明它们既会影响反应，也会影响决策。

在评论这件事的影响时，Reddit 上一位用户指出：

这标志着从“凭感觉引导”向“通过机制引导”的重大转变。情感向量在行为中起因果驱动作用（而不仅仅是相关），这一观点的意义非常重大。锚定平静状态以及调节情感反应，似乎是一种更为可靠的输出引导方式。

作者强调，这些发现并不意味着模型具有主观体验。不过，他们认为，类似于情感概念的内部结构，其作用方式与情感影响人类决策的方式相似。这提出了一个实际的问题：通过明确管理这些内部动态，是否能够提升模型的安全性和可靠性。

该文在结论部分写道，这些表征在不同模型中的普适性，以及如何将其融入训练和评估流程中，还需要进一步研究。

声明：本文为 InfoQ 翻译，未经许可禁止转载。

原文链接：https://www.infoq.com/news/2026/04/anthropic-paper-llms/

创作场景

Anthropic 的论文探讨了大语言模型中类情绪机制对行为的影响