Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

Anthropic 最近发布的两篇论文试图揭示大语言模型内部的运作机制，探讨如何确定可解释的概念，并将其与将这些概念转化为语言的计算“电路”联系起来。论文还描述了 Claude Haiku 3.5 的关键行为，包括幻觉、规划和其他核心特征。

大型语言模型的内部工作机制仍然鲜为人知，导致人们难以解释或解释它们用来解决问题的策略。根据 Anthropic 的说法，这些策略隐藏在模型生成文本的数十亿次计算之中——然而，它们大多仍然不透明。为了揭开这层隐藏的推理面纱，Anthropic 研究人员开发了一种他们称之为“AI 显微镜”的新方法：

我们从神经科学中汲取灵感，这个领域一直在探索思维生物复杂的内在结构，我们试图构建一种 AI 显微镜，帮助我们识别活动模式和信息流动。

简单来说，Anthropic 的 AI 显微镜技术就是用所谓的替代模型来替换被研究的模型。在这个替代模型中，原本的神经元被一些稀疏激活的特征所替代，这些特征通常能够代表一些可解释的概念。比如，当模型要生成一个州的首府时，某个特征就会被激活。

当然，替代模型并不总是能与底层模型产生相同的输出。为了克服这一局限，Anthropic 的研究人员针对他们想要研究的每个提示词构建了一个专门的替代模型。他们通过将误差项和固定的注意力模式纳入替代模型实现了这一目标。

本地替代模型生成的输出与原始模型完全相同，但尽可能多地使用特征替换来执行计算。

作为最后一步，为了描述从初始提示词到最终输出的特征传递过程，研究人员通过修剪掉所有不影响输出的特征构建了一个归因图。

请注意，这里仅提供 Anthropic AI 显微镜的一个大致介绍。若要了解详细内容，请参考上文链接中的原始论文。

通过采用这种方法，Anthropic 的研究团队取得了一系列有趣的成果。在多语言能力的研究中，他们找到了一些证据，显示 Claude 在将概念翻译成特定语言之前使用了一种通用语言来生成概念。

我们通过使用不同的语言向 Claude 询问“小的反义词”来探究这一现象，结果发现相同的核心特征被激活，这些特征既代表了“小”和“反义”的概念，并触发了“大”的概念，而这一概念被翻译成了提问所使用的语言。

另一个有趣的发现与大语言模型通常被认为在生成输出时“缺乏深思熟虑”的观点相悖。相反，对 Claude 生成押韵词的研究显示，它实际上会提前进行规划。

在开始第二行之前，它先“思考”一些与主题相关的押韵词汇，这些词汇要与“grab it”押韵。然后，带着这些构思写出下一行，并以计划中的词汇作为结尾。

Anthropic 的研究人员还深入研究了模型有时为何会编造信息，也就是它们产生幻觉的原因。从某种角度来看，幻觉是模型运作方式的固有特征，因为模型总是需要预测下一个输出。这意味着模型必须依赖特定的防幻觉训练来对抗这种倾向。换言之，有两种不同的机制在起作用：一种是识别“已知实体”，另一种是处理“未知名称”或“无法回答”的情况。这两种机制之间的正确协同作用是防止模型产生幻觉的关键。

我们展示了一个场景，即当 Claude 识别出一个名字却对这个人一无所知时可能会发生故障。在这种情况下，“已知实体”的特征可能被错误地激活，进而错误地抑制了默认的“不知道”特征。一旦模型决定要回答这个问题，它就会继续编造，生成一个看似合理但实际上不真实的回答。

Anthropic 的研究人员还探索了一些其他有趣的领域，包括心算、生成解释推理过程的思维链、多步推理和越狱行为。有关这些内容的细节可以在 Anthropic 的论文中找到。

Anthropic 的 AI 显微镜旨在为可解释性研究做出贡献，并提供一种工具，帮助我们理解模型如何进行推理，确保它们与人类价值观对齐。然而，这仍然只是一个初步的尝试，只能捕捉到模型计算的一小部分，并且只能应用于只有几十个单词的小型提示词。随着新的见解不断涌现，InfoQ 将继续报道大语言模型可解释性研究的最新进展。

查看英文原文：

https://www.infoq.com/news/2025/04/anthropic-ai-microscope/

创作场景

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制