写点什么

Anthropic 开源用于追踪 LLM 内部活动的工具

  • 2025-06-10
    北京
  • 本文字数:989 字

    阅读完需:约 3 分钟

大小:482.25K时长:02:44
Anthropic开源用于追踪LLM内部活动的工具

Anthropic 开源了一款用于追踪大语言模型在推理过程中内部活动的工具。该工具包含了一个环路追踪Python库,可用于任何开放权重的模型,以及托管在 Neuronpedia 上的前端,可通过图形界面探索库的输出。


正如 InfoQ报道的,他们揭示 LLM 内部行为的方法是用另一个模型替换实际的模型,这个模型使用跨层 MLP 转码器的稀疏活跃特征,而不是原始神经元。这些特征通常可以代表可解释的概念,从而可以通过移除不影响正在调查输出的所有特征来构建归因图


Anthropic 的环路追踪库能够从指定模型中识别替代环路,并使用预训练的转码器生成归因图。


它计算每个非零转码器特征、转码器错误节点和输入词元对其他非零转码器特征和输出 logit\【注:模型在应用 softmax 等概率函数之前为每个可能的输出分配的原始(非归一化)分数】的直接影响。


正如 Anthropic 的一名研究人员在 Hacker News 上指出的那样,归因图揭示了模型在采样标记时所经历的中间计算步骤,这为理解模型行为提供了宝贵的见解。基于这些见解,我们可以有目的地操纵转码器特征,并观察模型输出的相应变化。


Anthropic 已经使用环路追踪器对 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理以及多语言表示进行了深入研究。以下是为提示词“Fact: The capital of the state containing Dallas is(事实:包含达拉斯的州的首府是)”生成的归因图



在 Dwarkesh Patel 主持的一场播客节目中,Anthropic 的 Trenton Bricken 和 Sholto Douglas 解释了 Anthropic 对环路追踪的研究如何成为 LLM 机制可解释性的关键贡献,即努力理解 LLM 内部的核心计算单元是什么。这项工作对先前使用玩具模型、稀疏自编码器以及初步环路的研究基础进行了扩展。


现在,你正在识别模型各层中协同合作以执行复杂任务的各个特征。通过这一过程,你可以更深入地洞察模型究竟是如何进行推理并做出决策的。


这一领域仍处于起步阶段,随着大语言模型的安全应用变得越来越重要,其重要性也日益凸显:


鉴于人工智能的发展速度以及我们现有工具的状况,我们或许无法从一开始就证明一切都是安全的。但我认为这无疑是一个极具价值的目标。当我们意识到自己只是整个人工智能安全体系中的一部分时,这一目标显得尤为有力且令人安心。


你可以通过 Anthropic 的教程运行环路追踪库。或者,你也可以在Neuronpedia上使用它,或在本地安装。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/06/anthropic-circuit-tracing/

2025-06-10 18:003487

评论

发布
暂无评论

web前端面试题详细解析

yumibgt

面试

Activiti工作流自动生成28张数据库表的底层原理分析

朱季谦

Activity 工作流引擎

数字化进入深水区

鲸品堂

方法论 数字化 企业数字化转型

visualvm工具远程对linux服务器上的JVM虚拟机进行监控与调优

朱季谦

JVM GC 调优

EGG Network阿凡提的模式是怎么样的?早点了解别错失这个机会!

币圈那点事

区块链

金三银四,冰河为你整理了这份20万字134页的面试圣经!!

冰河

面试 面经 offer 金三银四 我要进大厂

v01.12 鸿蒙内核源码分析(双向链表) | 谁是内核最重要结构体 | 百篇博客分析 HarmonyOS 源码

鸿蒙研究站

鸿蒙 HarmonyOS 鸿蒙内核源码分析 百篇博客分析鸿蒙 百万汉字注解鸿蒙

微信扫码登录技术实现的简单思考

朱季谦

redis

智能安防监控系统的发展与应用

anyRTC开发者

android 监控 音视频 WebRTC RTC

Python OpenCV 图像平移,取经之旅第 10 天

梦想橡皮擦

3月日更

基于深度学习的端到端通信系统模型

华为云开发者联盟

深度学习 端到端 编码器 通信系统 信道模型

6大创新技术及2亿美元投入计划,这个活动有点料

华为云开发者联盟

人工智能 数据库 华为 云原生 HDC.Cloud

Rust从0到1-基础概念-函数

rust 函数

压抑了五个月的我终于可以放声呐喊了!阿里是真的难进,Java四面面经+面试题

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

模仿Activiti工作流自动建表机制,实现Springboot项目启动后自动创建多表关联的数据库与表的方案

朱季谦

建表

大“食”代来临,后厨重地可以更“聪明”点儿

IoT云工坊

人工智能 物联网 PaaS 智慧厨房 智慧餐饮

云端数智新引擎,腾讯云原生数据湖计算重磅发布

腾讯云大数据

大数据 数据湖

基于NB-IoT的智慧路灯监控系统(NB-IoT专栏—实战篇5:手机应用开发)

不脱发的程序猿

物联网 28天写作 3月日更 NB-IoT智慧路灯 手机应用开发

Knativa 基于流量的灰度发布和自动弹性实践

Serverless Devs

Serverless Kubernetes 运维 云原生 Knative

策略枚举:消除在项目里大批量使用if-else的正确姿势

朱季谦

枚举 策略模式

近万字原创长文,以追忆2020年:《请回答,2020》

朱季谦

随笔杂谈

vue项目中使用tinymce富文本编辑器实现图片上传/粘贴格式

yumibgt

tinymce

区块链电子合同签署平台,助力企业数字化转型

13828808769

区块链+ #区块链#

关于企业容器安全问题的思考

阿里巴巴中间件

是谁拖(慢)了 Redis 的后腿?

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

spark性能调优之JVN调优

大数据技术指南

spark 3月日更

降维打击:数据可视化降本增效,传统制造业价值即将扭转!

一只数据鲸鱼

物联网 数据可视化 工业物联网 数字化运维 3D

MindSpore实践:对篮球运动员目标的检测

华为云开发者联盟

深度学习 mindspore 图像检测 yolo 篮球运动

Kylin安装部署

五分钟学大数据

kylin 3月日更

关于热力图数据上报清洗,我们做了一个有意思的尝试

阿里巴巴中间件

未来几年,低代码开发平台会如何发展?

优秀

低代码

Anthropic开源用于追踪LLM内部活动的工具_AI&大模型_Sergio De Simone_InfoQ精选文章