写点什么

Anthropic 开源用于追踪 LLM 内部活动的工具

  • 2025-06-10
    北京
  • 本文字数:989 字

    阅读完需:约 3 分钟

大小:482.25K时长:02:44
Anthropic开源用于追踪LLM内部活动的工具

Anthropic 开源了一款用于追踪大语言模型在推理过程中内部活动的工具。该工具包含了一个环路追踪Python库,可用于任何开放权重的模型,以及托管在 Neuronpedia 上的前端,可通过图形界面探索库的输出。


正如 InfoQ报道的,他们揭示 LLM 内部行为的方法是用另一个模型替换实际的模型,这个模型使用跨层 MLP 转码器的稀疏活跃特征,而不是原始神经元。这些特征通常可以代表可解释的概念,从而可以通过移除不影响正在调查输出的所有特征来构建归因图


Anthropic 的环路追踪库能够从指定模型中识别替代环路,并使用预训练的转码器生成归因图。


它计算每个非零转码器特征、转码器错误节点和输入词元对其他非零转码器特征和输出 logit\【注:模型在应用 softmax 等概率函数之前为每个可能的输出分配的原始(非归一化)分数】的直接影响。


正如 Anthropic 的一名研究人员在 Hacker News 上指出的那样,归因图揭示了模型在采样标记时所经历的中间计算步骤,这为理解模型行为提供了宝贵的见解。基于这些见解,我们可以有目的地操纵转码器特征,并观察模型输出的相应变化。


Anthropic 已经使用环路追踪器对 Gemma-2-2b 和 Llama-3.2-1b 中的多步推理以及多语言表示进行了深入研究。以下是为提示词“Fact: The capital of the state containing Dallas is(事实:包含达拉斯的州的首府是)”生成的归因图



在 Dwarkesh Patel 主持的一场播客节目中,Anthropic 的 Trenton Bricken 和 Sholto Douglas 解释了 Anthropic 对环路追踪的研究如何成为 LLM 机制可解释性的关键贡献,即努力理解 LLM 内部的核心计算单元是什么。这项工作对先前使用玩具模型、稀疏自编码器以及初步环路的研究基础进行了扩展。


现在,你正在识别模型各层中协同合作以执行复杂任务的各个特征。通过这一过程,你可以更深入地洞察模型究竟是如何进行推理并做出决策的。


这一领域仍处于起步阶段,随着大语言模型的安全应用变得越来越重要,其重要性也日益凸显:


鉴于人工智能的发展速度以及我们现有工具的状况,我们或许无法从一开始就证明一切都是安全的。但我认为这无疑是一个极具价值的目标。当我们意识到自己只是整个人工智能安全体系中的一部分时,这一目标显得尤为有力且令人安心。


你可以通过 Anthropic 的教程运行环路追踪库。或者,你也可以在Neuronpedia上使用它,或在本地安装。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/06/anthropic-circuit-tracing/

2025-06-10 18:003567

评论

发布
暂无评论

为什么老有人想让我们“程序员”失业?

互联网工科生

程序员 开发工具

re:invent 2023 Amazon Q 初体验

亚马逊云科技 (Amazon Web Services)

re:Invent 亚马逊云科技 Amazon Q

软件测试学习笔记丨性能统计工具

测试人

软件测试 性能测试 自动化测试 测试开发

服务运行时动态挂载JavaAgent和插件——Sermant热插拔能力解析

华为云开源

开源 微服务治理 字节码增强

RRAM机制、材料及其在神经形态计算中的应用

申公豹

存内计算

跨界协作:借助gRPC实现Python数据分析能力的共享

不在线第一只蜗牛

Python gRPC RPC

如何将“龙”插入到富文本编辑器中?

OpenTiny社区

开源 前端 低代码 组件库

Web自动化三种等待方式,一篇文章教会你

霍格沃兹测试开发学社

聊聊几个最热门的前端框架

伤感汤姆布利柏

The Sandbox NFT 概览与数据分析

Footprint Analytics

区块链游戏 NFT 链游

低代码开发与网络信息安全:构建高效防护体系

不在线第一只蜗牛

软件开发 低代码 网络 低代码开发

运维工作新时代:自主编码实现运维自动化的转型之旅

京东零售技术

运维 自动化运维

极速提升软件测试效率:揭秘Web自动化三大等待技巧

测试人

软件测试 自动化测试 测试开发

淘宝商品详情API接口封装和解析

tbapi

淘宝商品详情数据接口 淘宝商品详情解析

PolarDB-X的XPlan索引选择

阿里云数据库开源

数据库 阿里云 索引 polarDB PolarDB-X

扫码即可快速协作:草料二维码底部协作面板功能详解

草料二维码

区块链游戏解说: DeFi Kingdoms

Footprint Analytics

defi 区块链游戏 链游

Anthropic开源用于追踪LLM内部活动的工具_AI&大模型_Sergio De Simone_InfoQ精选文章