写点什么

Anthropic 开源用于追踪 LLM 内部活动的工具

  • 2025-06-10
    北京
  • 本文字数:989 字

    阅读完需:约 3 分钟

大小:482.25K时长:02:44
Anthropic开源用于追踪LLM内部活动的工具

Anthropic 开源了一款用于追踪大语言模型在推理过程中内部活动的工具。该工具包含了一个环路追踪Python库,可用于任何开放权重的模型,以及托管在 Neuronpedia 上的前端,可通过图形界面探索库的输出。


正如 InfoQ报道的,他们揭示 LLM 内部行为的方法是用另一个模型替换实际的模型,这个模型使用跨层 MLP 转码器的稀疏活跃特征,而不是原始神经元。这些特征通常可以代表可解释的概念,从而可以通过移除不影响正在调查输出的所有特征来构建归因图


Anthropic 的环路追踪库能够从指定模型中识别替代环路,并使用预训练的转码器生成归因图。


它计算每个非零转码器特征、转码器错误节点和输入词元对其他非零转码器特征和输出 logit\【注:模型在应用 softmax 等概率函数之前为每个可能的输出分配的原始(非归一化)分数】的直接影响。


正如 Anthropic 的一名研究人员在 Hacker News 上指出的那样,归因图揭示了模型在采样标记时所经历的中间计算步骤,这为理解模型行为提供了宝贵的见解。基于这些见解,我们可以有目的地操纵转码器特征,并观察模型输出的相应变化。


Anthropic 已经使用环路追踪器对 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理以及多语言表示进行了深入研究。以下是为提示词“Fact: The capital of the state containing Dallas is(事实:包含达拉斯的州的首府是)”生成的归因图



在 Dwarkesh Patel 主持的一场播客节目中,Anthropic 的 Trenton Bricken 和 Sholto Douglas 解释了 Anthropic 对环路追踪的研究如何成为 LLM 机制可解释性的关键贡献,即努力理解 LLM 内部的核心计算单元是什么。这项工作对先前使用玩具模型、稀疏自编码器以及初步环路的研究基础进行了扩展。


现在,你正在识别模型各层中协同合作以执行复杂任务的各个特征。通过这一过程,你可以更深入地洞察模型究竟是如何进行推理并做出决策的。


这一领域仍处于起步阶段,随着大语言模型的安全应用变得越来越重要,其重要性也日益凸显:


鉴于人工智能的发展速度以及我们现有工具的状况,我们或许无法从一开始就证明一切都是安全的。但我认为这无疑是一个极具价值的目标。当我们意识到自己只是整个人工智能安全体系中的一部分时,这一目标显得尤为有力且令人安心。


你可以通过 Anthropic 的教程运行环路追踪库。或者,你也可以在Neuronpedia上使用它,或在本地安装。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/06/anthropic-circuit-tracing/

2025-06-10 18:003422

评论

发布
暂无评论

美国站群服务器配置指南,帮你轻松管理多个网站

一只扑棱蛾子

站群服务器 美国服务器 美国站群服务器

手把手|支付宝异步通知如何使用

盐焗代码虾

安全 支付宝 异步通知

一次单据图片处理的优化实践 | 京东物流技术团队

京东科技开发者

性能优化 图片处理 pdfbox 企业号10月PK榜

飞码LowCode前端技术系列(一):数据结构设计 | 京东云技术团队

京东科技开发者

低代码 营销 企业号10月PK榜 web页面搭建

Parallels Desktop 19 for Mac虚拟机

展初云

虚拟机 pd虚拟机 Mac安装win

自定义MyBatis拦截器更改表名

emanjusaka

Java mybatis

FC红白机游戏600合集 for mac

展初云

Mac 游戏 FC 红白机游戏

LLM 新缺陷曝光,自我纠正成功率仅 1%;苹果超 95% 产品仍在中国制造丨 RTE 开发者日报 Vol.72

声网

【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度

阿里云大数据AI技术

算法

ARB链(Arbitrum)ARBT代币合约质押挖矿系统开发(源码技术搭建)

l8l259l3365

NFTScan | 10.16~10.22 NFT 市场热点汇总

NFT Research

NFT NFTScan nft工具

测吧(北京)科技有限公司项目总监王雪冬一行访问计算机学院探讨合作

霍格沃兹测试开发学社

大模型训练,提升AI能力的关键

百度开发者中心

深度学习 大模型

四川华新学院在“火焰杯”软件测试高校就业选拔赛取得佳绩

测试人

软件测试

OpenHarmony Meetup成都站招募令

OpenHarmony开发者

OpenHarmony

2024深圳电子展

AIOTE智博会

电子展 深圳电子展 电子信息展 深圳电子信息展

访问控制中PIP的典型流程和关键点思考

权说安全

访问控制

如何让大模型生成更准确、可靠的结果?

鼎道智联

GPT

第5期 | GPTSecurity周报

云起无垠

Mac电脑音频修复和增强推荐 iZotope RX 10最新激活版

胖墩儿不胖y

Mac软件 音频修复 音频增强软件

仅需2分钟 让智慧助手小艺用你的声音时刻陪伴老人

最新动态

深度学习应用开发示例之“定位编码”

矩视智能

深度学习 机器视觉

中国大模型开源创新与合作的新篇章 | 2023 CCF中国开源大会

OpenI启智社区

开源 大模型 OpenI启智社区 CCF中国开源大会 鹏城·脑海大模型

透明格栅屏与传统LED显示屏有什么区别?透明格栅屏用在什么地方?

Dylan

产品 LED LED显示屏

安卓设备连接Mac必备的传输工具 MacDroid

展初云

软件测试|第二届、第三届<火焰杯>软件测试开发选拔赛河北赛区颁奖典礼落幕

霍格沃兹测试开发学社

面对“双十一”这样的大促,品牌方还能多做些什么?

博文视点Broadview

天翼云以领先云网算力,为工业信息化筑牢算力底座

极客天地

一种基于闭包函数实现自动化框架断言组件的设计实践 | 京东物流技术团队

京东科技开发者

闭包函数 企业号10月PK榜 测试脚本 断言组件

IDEA工具第二篇:自定义Java方法注释模板 | 京东云技术团队

京东科技开发者

Java IDEA 参数 注释 企业号10月PK榜

Anthropic开源用于追踪LLM内部活动的工具_AI&大模型_Sergio De Simone_InfoQ精选文章