写点什么

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

  • 2025-05-01
    北京
  • 本文字数:1566 字

    阅读完需:约 5 分钟

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

Anthropic 最近发布的两篇论文试图揭示大语言模型内部的运作机制,探讨如何确定可解释的概念,并将其与将这些概念转化为语言的计算“电路”联系起来。论文还描述了 Claude Haiku 3.5 的关键行为,包括幻觉、规划和其他核心特征。


大型语言模型的内部工作机制仍然鲜为人知,导致人们难以解释或解释它们用来解决问题的策略。根据 Anthropic 的说法,这些策略隐藏在模型生成文本的数十亿次计算之中——然而,它们大多仍然不透明。为了揭开这层隐藏的推理面纱,Anthropic 研究人员开发了一种他们称之为“AI 显微镜”的新方法:


我们从神经科学中汲取灵感,这个领域一直在探索思维生物复杂的内在结构,我们试图构建一种 AI 显微镜,帮助我们识别活动模式和信息流动。


简单来说,Anthropic 的 AI 显微镜技术就是用所谓的替代模型来替换被研究的模型。在这个替代模型中,原本的神经元被一些稀疏激活的特征所替代,这些特征通常能够代表一些可解释的概念。比如,当模型要生成一个州的首府时,某个特征就会被激活。


当然,替代模型并不总是能与底层模型产生相同的输出。为了克服这一局限,Anthropic 的研究人员针对他们想要研究的每个提示词构建了一个专门的替代模型。他们通过将误差项和固定的注意力模式纳入替代模型实现了这一目标。


本地替代模型生成的输出与原始模型完全相同,但尽可能多地使用特征替换来执行计算。


作为最后一步,为了描述从初始提示词到最终输出的特征传递过程,研究人员通过修剪掉所有不影响输出的特征构建了一个归因图。


请注意,这里仅提供 Anthropic AI 显微镜的一个大致介绍。若要了解详细内容,请参考上文链接中的原始论文。


通过采用这种方法,Anthropic 的研究团队取得了一系列有趣的成果。在多语言能力的研究中,他们找到了一些证据,显示 Claude 在将概念翻译成特定语言之前使用了一种通用语言来生成概念。


我们通过使用不同的语言向 Claude 询问“小的反义词”来探究这一现象,结果发现相同的核心特征被激活,这些特征既代表了“小”和“反义”的概念,并触发了“大”的概念,而这一概念被翻译成了提问所使用的语言。


另一个有趣的发现与大语言模型通常被认为在生成输出时“缺乏深思熟虑”的观点相悖。相反,对 Claude 生成押韵词的研究显示,它实际上会提前进行规划。


在开始第二行之前,它先“思考”一些与主题相关的押韵词汇,这些词汇要与“grab it”押韵。然后,带着这些构思写出下一行,并以计划中的词汇作为结尾。


Anthropic 的研究人员还深入研究了模型有时为何会编造信息,也就是它们产生幻觉的原因。从某种角度来看,幻觉是模型运作方式的固有特征,因为模型总是需要预测下一个输出。这意味着模型必须依赖特定的防幻觉训练来对抗这种倾向。换言之,有两种不同的机制在起作用:一种是识别“已知实体”,另一种是处理“未知名称”或“无法回答”的情况。这两种机制之间的正确协同作用是防止模型产生幻觉的关键。


我们展示了一个场景,即当 Claude 识别出一个名字却对这个人一无所知时可能会发生故障。在这种情况下,“已知实体”的特征可能被错误地激活,进而错误地抑制了默认的“不知道”特征。一旦模型决定要回答这个问题,它就会继续编造,生成一个看似合理但实际上不真实的回答。


Anthropic 的研究人员还探索了一些其他有趣的领域,包括心算、生成解释推理过程的思维链、多步推理和越狱行为。有关这些内容的细节可以在 Anthropic 的论文中找到。


Anthropic 的 AI 显微镜旨在为可解释性研究做出贡献,并提供一种工具,帮助我们理解模型如何进行推理,确保它们与人类价值观对齐。然而,这仍然只是一个初步的尝试,只能捕捉到模型计算的一小部分,并且只能应用于只有几十个单词的小型提示词。随着新的见解不断涌现,InfoQ 将继续报道大语言模型可解释性研究的最新进展。


查看英文原文:

https://www.infoq.com/news/2025/04/anthropic-ai-microscope/

2025-05-01 10:0011472

评论

发布
暂无评论

下一代ETL工具:微服务架构的全新数据集成平台

RestCloud

微服务 ETL

星河创新,开拓新纪!2023“星河产业应用创新奖”报名全面开启!

飞桨PaddlePaddle

星河社区

OpenMLDB v0.8.4 诊断工具全面升级

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

即时通讯技术文集(第24期):音视频WebRTC好文合集 [共20篇]

JackJiang

网络编程 即时通讯 IM

前端技术探秘-Nodejs的CommonJS规范实现原理 | 京东物流技术团队

京东科技开发者

JavaScript node.js 前端 企业号11月PK榜 ChromeV8

喜讯!MIAOYUN《电力云原生“一云多芯”大模型信创全适配解决方案》获评第二届中国赛宝信息技术应用创新优秀解决方案奖

MIAOYUN

AI 云原生 大模型 一云多芯解决方案 信创解决方案

悦数图数据库 v3.6.0 发布|支持 Zone 管理,提升业务安全性和连续性

悦数图数据库

图数据库 悦数 杭州悦数

议题征集!2023 龙蜥操作系统大会硬核启动

OpenAnolis小助手

操作系统 龙蜥社区 2023龙蜥操作系统大会 智算 议题

零代码AppLink平台触发事件组件

RestCloud

零代码 APPlink

OpenMLDB SQL 开发调试神器 - OpenMLDB SQL Emulator

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

技术分享 | 在 IDE 插件开发中接入 JCEF 框架

LigaAI

后端 IDEA web技术分享 前段 IDE插件

CloudQuery x GBase,信创数据库管控革新之路

BinTools图尔兹

sql 数据库管理 数据库安全 人大金仓 南大通用

Tower for Mac注册激活 附 注册机

彩云

Tower Git客户端

探索亚马逊云科技云存储服务的性能

亚马逊云科技 (Amazon Web Services)

存储 Amazon S3 云存储服务

前端必学——实现电商图片放大镜效果(附代码)

小齐写代码

Promise规范与原理解析 | 京东物流技术团队

京东科技开发者

前端 Promise JavaScrip 企业号11月PK榜

一起乐「FUN」天!大模型趣味赛等你来挑战!

飞桨PaddlePaddle

开发者 大模型

一次爽个够,80款H5精品小游戏合集

echeverra

H5小游戏

「Macos最新」Rhino 8 for Mac(犀牛 8)中文激活版 支持M1

彩云

3d建模 Rhino 8

XTransfer与腾讯云达成战略合作 助力外贸数字化转型

XTransfer技术

腾讯云 出海 XTransfer 跨境金融

收藏这几个开源库,写css你会笑出声

伤感汤姆布利柏

CSS 开源 低代码

极盾故事|“五步”构建某三甲医院数据安全管理集成平台

极盾科技

数据安全

火焰杯软件测试竞赛颁奖典礼在长春工业大学举行

霍格沃兹测试开发学社

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制_AI&大模型_Sergio De Simone_InfoQ精选文章