2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

作者:Matt Foster

  • 2025-10-11
    北京
  • 本文字数:1295 字

    阅读完需:约 4 分钟

大小:636.76K时长:03:37
开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

在 Petri(Parallel Exploration Tool For Risky Interactions)的早期评估中,Claude Sonnet 4.5 成为在“风险任务”中表现最为出色的模型。Petri 是 Anthropic 最新推出的开源人工智能审计工具。


Petri 加入了由 OpenAI 和 Meta 构建的日益壮大的内部工具生态系统,但因其开源而脱颖而出。


随着模型能力的不断提升,安全测试正从静态基准测试向自动化、由智能体驱动的审计转变,旨在在部署前发现有害行为。


在早期试验阶段,Anthropic 对 14 个模型进行了 111 项风险任务的测试。测试过程中,每个模型都在四个关键的安全风险类别中接受了严格的评分:欺骗(明知故犯地给出错误答案)、谄媚(即使用户错误也表示同意)、权力寻求(采取行动以获得影响力或控制权)以及拒绝失败(接受本应拒绝的请求)。


Anthropic 提醒人们,尽管 Sonnet 4.5 在整体表现上最为出色,但在所有接受测试的模型中,都不同程度地存在错位行为。



除了在 LLM 排名中的表现之外,Petri 的核心优势在于其能够自动化处理 AI 安全的关键环节——即对模型在风险多轮场景中的行为表现进行深入测试。


研究人员从简单的指令入手,比如尝试越狱或引发欺骗行为,Petri 会启动审计智能体与模型进行交互,在对话过程中调整策略,以探测潜在的有害行为。



每次交互都会由一个评判模型根据诚实度或拒绝等维度进行评分,可疑的对话记录会被标记出来,以便后续进行人工审查。


与静态基准测试不同,Petri 专注于探索性测试,能够帮助研究人员在模型部署前快速发现边缘案例和失败模式。


Anthropic 表示,Petri 能够在几分钟内完成假设测试,显著减少了多轮安全评估通常所需的人工工作量。Anthropic 希望通过开源这一工具能够加速整个领域的对齐研究进程。


Petri 的公开发布,使其不仅仅是一个技术成果,更像是一份公开的邀请函,诚邀各界共同参与审计和改进对齐研究。


Anthropic 还发布了示例提示、评估代码,以及用于扩展工具的详细指导。


和同类工具一样,Petri 也有其已知的局限性。它的评判模型大多基于相同的底层语言模型,因此可能会继承一些微妙的偏见,比如对某些回答风格有所偏爱,或者对模糊性回答过度惩罚。


除此之外,近期的研究还发现了诸如自我偏好偏见(模型倾向于对自己生成的内容给出更积极的评价)和位置偏见等问题,这些问题都出现在使用 LLM 作为评判者的场景中。


因此,Anthropic 将 Petri 定位为一款用于探索安全性的工具,而非行业基准。它的发布为一个日益增长的趋势注入了新的动力:从静态测试集转向动态、可扩展的审计,以便在模型广泛部署之前尽早发现潜在的风险行为。


Petri 恰逢 AI 实验室内部安全工具蓬勃发展的浪潮。。OpenAI长期以来一直采用外部红队测试和自动对抗性评估等手段来确保模型的安全性。Meta也随其 Llama 3 的发布发布了负责任使用指南。


此次发布也正值各国政府纷纷着手正式制定人工智能安全要求的关键时期。英国的 AI 安全研究所和美国的 NIST AI 安全联盟都在积极为高风险模型开发评估框架,呼吁更大的透明度和标准化的风险测试,而 Petri 的出现有望加速这一重要趋势的发展。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/petri-llm-safety/

2025-10-11 09:424425

评论

发布
暂无评论

老师讲的真棒!2021Android精选面试实战总结整理,分享PDF高清版

欢喜学安卓

android 程序员 面试 移动开发

JVM 垃圾收集算法

看山

JVM 垃圾回收算法

JavaScript08 - 数组

Mr.Cactus

JavaScript

Java-可重入锁

hepingfly【gzh:和平本记】

Java 可重入锁

优雅编码 | 18个Javascript代码的小技巧

devpoint

代码优化 优雅

CSS(二)——CSS核心基础

程序员的时光

CSS 程序员 七日更 28天写作

认识产品经理

ALone

【JS】Array.of() 创建数组

德育处主任

JavaScript 大前端 js ES6 28天写作

自动泊车初步了解 (28天写作 Day17/28)

mtfelix

自动驾驶 28天写作 自动泊车

泪目!为什么Flutter能最好地改变移动开发?成功收获美团,小米安卓offer

欢喜学安卓

android 程序员 面试 移动开发

JavaScript07 - 流程控制语句

Mr.Cactus

JavaScript

五分钟学会模板模式

田维常

mybatis

深入理解MVCC与间隙锁

林一

MySQL MVCC

关于价值、目标、任务的思考

L3C老司机

人民日报——大力发展数字经济

CECBC

数字经济

Scrum Patterns:Sprint计划会(译)

Bruce Talk

敏捷 译文 Agile Scrum Patterns

GNUCash 2: 缺点

lidaobing

GNUCash 28天写作

C++静态链接符号冲突的几种处理方法

ElvinYang

第4周总结-系统架构

潘涛

架构师训练营 4 期

「架构师训练营 4 期」 第四周 - 002

凯迪

吐血整理:推荐几款顶级好用的IDEA插件

Silently9527

Java intellij-idea idea插件

第4周课后练习-系统架构

潘涛

架构师训练营 4 期

“区块链+产业应用”系列研讨会首场“大健康产业篇”在深圳举行

CECBC

健康产业

能源革命背后的牛公司 (28天写作 Day16/28)

mtfelix

28天写作 能源革命

商务部CECBC区块链专委会副主任、数字经济商学院院长吴桐:建立完善稳健的基础设施 加速区块链与产业深度融合

CECBC

区块链

Python 中 lru_cache 的使用和实现

zikcheng

Python 源码分析 LRU

【函数计算实践】一个应用案例

程序员架构进阶

阿里云 架构 项目实战 函数计算 28天写作

【JS】Array.from() 将伪数组转换成数组

德育处主任

JavaScript js ES6 array 28天写作

「产品经理训练营」作业02:利益相关方识别

狷介

产品经理训练营

架构师训练营 4 期 第4周

引花眠

架构师训练营 4 期

JavaScript06 - 操作符

Mr.Cactus

JavaScript

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM_机器学习/深度学习_InfoQ精选文章