Gemma Scope 2 是一套旨在解释 Gemini 3 模型行为的工具,使研究人员能够分析模型的突发行为,审核和调试 AI 代理,并针对越狱、幻觉和阿谀奉承等安全问题制定缓解策略。
可解释性研究旨在理解 AI 模型的内部工作机制和学习算法。随着 AI 变得越来越强大和复杂,可解释性对于构建安全可靠的 AI 至关重要。
谷歌将 Gemma Scope 描述为大型语言模型(LLM)显微镜。它结合了稀疏自编码器(SAEs)和转码器,让研究人员能够检查模型的内部表示,查看它“思考”的内容,并理解这些内部状态如何塑造了其行为。一个关键的应用场景是检查模型输出与其内部状态之间的差异,按照谷歌的说法,这可能有助于发现安全风险。
Gemma Scope 2 针对 Gemma 2 模型家族从多个方面扩展了原先的 Gemma Scope。最值得注意的是,它在 Gemini 3 模型的每一层中重新训练了其 SAEs 和转码器,包括 kip-transcoders 和 cross-layer transcoders 。这些转码器旨在使多步计算和分布式算法更容易解释。
谷歌解释说,增加层数直接增加了计算和内存需求。为了保持复杂性随层数线性增长,这需要设计专门的稀疏内核。
此外,谷歌采用了一种更先进的训练技术,使 Gemma Scope 2 有更强的能力来识别更有用的概念,同时也解决了初版实现中已知的几个缺陷。最后,Gemma Scope 2 引入了专门针对聊天机器人进行分析的工具,使研究人员能够研究复杂的多步行为,如越狱、拒绝机制和思维链忠实度。
稀疏自编码器使用一对编码器和解码器函数来分解和重建所有 LLM 输入。另一方面,经过训练后,转码器能够稀疏重建多层感知器(MLP)子层的计算过程,即学习如何对给定输入进行输出近似。这使其能够识别各层及子层中哪些部分(更精确地说是哪些激活模式)是由单输入令牌或令牌序列触发的。
除了应用于安全领域外,Reddit 用户 Mescalian 预测,这项研究还可以:
指导其他领域的最佳实践,未来可能会被用来监控智能程度更高的 AI 的内部推理。不过目前,它最适用于通过对权重进行微调及其他修改来调整模型能力。
与谷歌类似,Anthropic 和 OpenAI 也针对他们的模型发布了自己的“ AI 显微镜”。
谷歌已在 Hugging Face 上发布了 Gemma Scope 2 的权重。
原文链接:





