写点什么

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

  • 2025-05-01
    北京
  • 本文字数:1566 字

    阅读完需:约 5 分钟

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

Anthropic 最近发布的两篇论文试图揭示大语言模型内部的运作机制,探讨如何确定可解释的概念,并将其与将这些概念转化为语言的计算“电路”联系起来。论文还描述了 Claude Haiku 3.5 的关键行为,包括幻觉、规划和其他核心特征。


大型语言模型的内部工作机制仍然鲜为人知,导致人们难以解释或解释它们用来解决问题的策略。根据 Anthropic 的说法,这些策略隐藏在模型生成文本的数十亿次计算之中——然而,它们大多仍然不透明。为了揭开这层隐藏的推理面纱,Anthropic 研究人员开发了一种他们称之为“AI 显微镜”的新方法:


我们从神经科学中汲取灵感,这个领域一直在探索思维生物复杂的内在结构,我们试图构建一种 AI 显微镜,帮助我们识别活动模式和信息流动。


简单来说,Anthropic 的 AI 显微镜技术就是用所谓的替代模型来替换被研究的模型。在这个替代模型中,原本的神经元被一些稀疏激活的特征所替代,这些特征通常能够代表一些可解释的概念。比如,当模型要生成一个州的首府时,某个特征就会被激活。


当然,替代模型并不总是能与底层模型产生相同的输出。为了克服这一局限,Anthropic 的研究人员针对他们想要研究的每个提示词构建了一个专门的替代模型。他们通过将误差项和固定的注意力模式纳入替代模型实现了这一目标。


本地替代模型生成的输出与原始模型完全相同,但尽可能多地使用特征替换来执行计算。


作为最后一步,为了描述从初始提示词到最终输出的特征传递过程,研究人员通过修剪掉所有不影响输出的特征构建了一个归因图。


请注意,这里仅提供 Anthropic AI 显微镜的一个大致介绍。若要了解详细内容,请参考上文链接中的原始论文。


通过采用这种方法,Anthropic 的研究团队取得了一系列有趣的成果。在多语言能力的研究中,他们找到了一些证据,显示 Claude 在将概念翻译成特定语言之前使用了一种通用语言来生成概念。


我们通过使用不同的语言向 Claude 询问“小的反义词”来探究这一现象,结果发现相同的核心特征被激活,这些特征既代表了“小”和“反义”的概念,并触发了“大”的概念,而这一概念被翻译成了提问所使用的语言。


另一个有趣的发现与大语言模型通常被认为在生成输出时“缺乏深思熟虑”的观点相悖。相反,对 Claude 生成押韵词的研究显示,它实际上会提前进行规划。


在开始第二行之前,它先“思考”一些与主题相关的押韵词汇,这些词汇要与“grab it”押韵。然后,带着这些构思写出下一行,并以计划中的词汇作为结尾。


Anthropic 的研究人员还深入研究了模型有时为何会编造信息,也就是它们产生幻觉的原因。从某种角度来看,幻觉是模型运作方式的固有特征,因为模型总是需要预测下一个输出。这意味着模型必须依赖特定的防幻觉训练来对抗这种倾向。换言之,有两种不同的机制在起作用:一种是识别“已知实体”,另一种是处理“未知名称”或“无法回答”的情况。这两种机制之间的正确协同作用是防止模型产生幻觉的关键。


我们展示了一个场景,即当 Claude 识别出一个名字却对这个人一无所知时可能会发生故障。在这种情况下,“已知实体”的特征可能被错误地激活,进而错误地抑制了默认的“不知道”特征。一旦模型决定要回答这个问题,它就会继续编造,生成一个看似合理但实际上不真实的回答。


Anthropic 的研究人员还探索了一些其他有趣的领域,包括心算、生成解释推理过程的思维链、多步推理和越狱行为。有关这些内容的细节可以在 Anthropic 的论文中找到。


Anthropic 的 AI 显微镜旨在为可解释性研究做出贡献,并提供一种工具,帮助我们理解模型如何进行推理,确保它们与人类价值观对齐。然而,这仍然只是一个初步的尝试,只能捕捉到模型计算的一小部分,并且只能应用于只有几十个单词的小型提示词。随着新的见解不断涌现,InfoQ 将继续报道大语言模型可解释性研究的最新进展。


查看英文原文:

https://www.infoq.com/news/2025/04/anthropic-ai-microscope/

2025-05-01 10:0011589

评论

发布
暂无评论

软件测试|京东科技控股股份有限公司岗位开放~

霍格沃兹测试开发学社

软件测试岗位内推丨京东科技控股股份有限公司岗位开放

测试人

软件测试

✅快速构建Express服务

派大星

node.js Express

工厂生产管理MES系统,开源代码+维护

万界星空科技

开源 源码 mes 开源mes 万界星空科技

软件测试学习笔记丨Linux命令 uniq去重

测试人

软件测试

MES系统计划排产功能,助你提升生产效率

万界星空科技

生产管理系统 mes 万界星空科技 万界星空科技mes 排产计划

Pod/Node 内存高负载故障注入

腾讯云混沌演练平台

k8s 混沌工程

测试管理 | 京东科技控股股份有限公司岗位开放~

测吧(北京)科技有限公司

测试

「我在淘天做技术」2024年看AIGC是如何让1688主图焕发新春的

阿里技术

商品 大模型 1688 AIGC

异常检测、自动告警,业务问题分钟级识别

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟

复杂SQL治理实践 | 京东物流技术团队

京东科技开发者

百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布

SelectDB

数据库 OLAP 数据库迁移 数据同步 大数据 开源

API安全概览

FunTester

ScaleFlux与UCloud携手,助力高性能文件存储,实现低成本和高性能的完美平衡

ScaleFlux

高性能 数据压缩 企业存储

简单一招竟把nginx服务器性能提升50倍

京东科技开发者

机械加工行业MES系统实施步骤

万界星空科技

mes 万界星空科技 机械 机械加工行业 机加工MES

教你一键搭建本地服务器,轻松4人以上联机畅玩幻兽帕鲁

华为云开发者联盟

云计算 服务器 华为云 华为云开发者联盟

Apache Doris 2.0.4 版本正式发布

SelectDB

数据仓库 数据分析 OLAP 大数据 开源 数据库·

iOS应用崩溃了,如何通过崩溃手机连接电脑查找日志方法

测试管理|名企测试管理大咖解析沟通管理,多维度经验分享

霍格沃兹测试开发学社

名企测试管理大咖解析沟通管理,多维度经验分享

测试人

软件测试

面试官:说一下零拷贝技术的实现原理?

王磊

java面试

名企测试管理大咖解析沟通管理,多维度经验分享

测吧(北京)科技有限公司

测试

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制_AI&大模型_Sergio De Simone_InfoQ精选文章