2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Anthropic 开源用于追踪 LLM 内部活动的工具

  • 2025-06-10
    北京
  • 本文字数:989 字

    阅读完需:约 3 分钟

大小:482.25K时长:02:44
Anthropic开源用于追踪LLM内部活动的工具

Anthropic 开源了一款用于追踪大语言模型在推理过程中内部活动的工具。该工具包含了一个环路追踪Python库,可用于任何开放权重的模型,以及托管在 Neuronpedia 上的前端,可通过图形界面探索库的输出。


正如 InfoQ报道的,他们揭示 LLM 内部行为的方法是用另一个模型替换实际的模型,这个模型使用跨层 MLP 转码器的稀疏活跃特征,而不是原始神经元。这些特征通常可以代表可解释的概念,从而可以通过移除不影响正在调查输出的所有特征来构建归因图


Anthropic 的环路追踪库能够从指定模型中识别替代环路,并使用预训练的转码器生成归因图。


它计算每个非零转码器特征、转码器错误节点和输入词元对其他非零转码器特征和输出 logit\【注:模型在应用 softmax 等概率函数之前为每个可能的输出分配的原始(非归一化)分数】的直接影响。


正如 Anthropic 的一名研究人员在 Hacker News 上指出的那样,归因图揭示了模型在采样标记时所经历的中间计算步骤,这为理解模型行为提供了宝贵的见解。基于这些见解,我们可以有目的地操纵转码器特征,并观察模型输出的相应变化。


Anthropic 已经使用环路追踪器对 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理以及多语言表示进行了深入研究。以下是为提示词“Fact: The capital of the state containing Dallas is(事实:包含达拉斯的州的首府是)”生成的归因图



在 Dwarkesh Patel 主持的一场播客节目中,Anthropic 的 Trenton Bricken 和 Sholto Douglas 解释了 Anthropic 对环路追踪的研究如何成为 LLM 机制可解释性的关键贡献,即努力理解 LLM 内部的核心计算单元是什么。这项工作对先前使用玩具模型、稀疏自编码器以及初步环路的研究基础进行了扩展。


现在,你正在识别模型各层中协同合作以执行复杂任务的各个特征。通过这一过程,你可以更深入地洞察模型究竟是如何进行推理并做出决策的。


这一领域仍处于起步阶段,随着大语言模型的安全应用变得越来越重要,其重要性也日益凸显:


鉴于人工智能的发展速度以及我们现有工具的状况,我们或许无法从一开始就证明一切都是安全的。但我认为这无疑是一个极具价值的目标。当我们意识到自己只是整个人工智能安全体系中的一部分时,这一目标显得尤为有力且令人安心。


你可以通过 Anthropic 的教程运行环路追踪库。或者,你也可以在Neuronpedia上使用它,或在本地安装。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/06/anthropic-circuit-tracing/

2025-06-10 18:001

评论

发布
暂无评论

已收藏!深入浅出Android性能调优

欢喜学安卓

android 程序员 面试 移动开发

【从零开始学爬虫】采集西瓜直播视频

前嗅大数据

大数据 爬虫 数据采集

网络攻防学习笔记 Day81

穿过生命散发芬芳

网络攻防 7月日更

音视频开发进阶指南,最新大厂Android校招面试经验汇总

欢喜学安卓

android 程序员 面试 移动开发

基于Spring Boot+Security+Redis权限管理系统,权限控制采用RBAC

Java架构追梦

Java 源码 架构师 springboot 权限管理系统

为什么别的程序员能月薪 20k ,而你一个月只能拿 6K 的低保?差别就在这!

白亦杨

Java 编程 程序员 技术宅

PHA矿机挖矿系统搭建

Geek_23f0c3

区块链 云算力模式系统开发源码 PHA矿机挖矿

“吴痛针灸”代言人翻车,为什么女性会重新定义品牌优势

脑极体

大数据实战训练营作业一

Clarke

流程审批系统如何通过低代码平台实现?

优秀

低代码 流程审批系统

想象中的论文答辩和真实的论文答辩,我太难了……

程序员生活志

955.WLB 不加班公司名单!再新增 5 家公司!

程序员生活志

华为云UGO正式公测:4大核心优势破解异构数据库迁移难题

华为云开发者联盟

数据库 华为云数据库 异构数据库 对象迁移 应用迁移

使用Docker运行OnlyOffice的Node.js示例

一个需求

onlyoffice

倒计时 | 7.24 阿里云 Serverless Developer Meetup 杭州站报名火热进行中!

Serverless Devs

阿里云 Serverless 云原生

Redis 的集群容错与故障转移

U2647

redis redis哨兵模式 集群 redis cluster Leader

手把手教你在Modelarts平台上进行视频推理

华为云开发者联盟

视频 modelarts 推理 预处理 视频推理

浪潮云洲×天人集团:打通数据脉络 驱动降本增效

面向资源的架构(ROA)概述

码语者

SOA ROA

Go语言,什么情况下应该使用指针?

微客鸟窝

Go 语言

基于迁移学习的语义分割算法分享与代码复现

华为云开发者联盟

语义分割 modelarts 迁移学习 语义分割算法 迁移分割

【LeetCode】两个链表的第一个公共节点Java题解

Albert

算法 LeetCode 7月日更

云小课|ModelArts Pro 视觉套件:零代码构建视觉AI应用

华为云开发者联盟

AI 零代码 ModelArts Pro 行业落地 视觉套件

为什么别的程序员能月薪 20k ,而你一个月只能拿 6K 的低保?差别就在这!

Java 编程 程序员 技术宅

Vue进阶(三十五):watch监听函数详解

No Silver Bullet

Vue 7月日更 watch

现代企业架构师的5大特征及六种方法

禅道项目管理

架构 数据 开发 创新 行业趋势

MERN堆栈

吴脑的键客

node.js mongodb React Express

什么是共识?(理论篇)

趣链科技

大数据实战训练营作业二

Clarke

使用dubbo-go搭建dubbo接口测试平台

捉虫大师

dubbo 接口测试 dubbo-go Go 语言

全球首个AI组合亮相,有人直呼惊艳,也有人害怕恐惧

程序员生活志

Anthropic开源用于追踪LLM内部活动的工具_AI&大模型_Sergio De Simone_InfoQ精选文章