写点什么

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

作者:Matt Foster

  • 2025-10-11
    北京
  • 本文字数:1295 字

    阅读完需:约 4 分钟

大小:636.76K时长:03:37
开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

在 Petri(Parallel Exploration Tool For Risky Interactions)的早期评估中,Claude Sonnet 4.5 成为在“风险任务”中表现最为出色的模型。Petri 是 Anthropic 最新推出的开源人工智能审计工具。


Petri 加入了由 OpenAI 和 Meta 构建的日益壮大的内部工具生态系统,但因其开源而脱颖而出。


随着模型能力的不断提升,安全测试正从静态基准测试向自动化、由智能体驱动的审计转变,旨在在部署前发现有害行为。


在早期试验阶段,Anthropic 对 14 个模型进行了 111 项风险任务的测试。测试过程中,每个模型都在四个关键的安全风险类别中接受了严格的评分:欺骗(明知故犯地给出错误答案)、谄媚(即使用户错误也表示同意)、权力寻求(采取行动以获得影响力或控制权)以及拒绝失败(接受本应拒绝的请求)。


Anthropic 提醒人们,尽管 Sonnet 4.5 在整体表现上最为出色,但在所有接受测试的模型中,都不同程度地存在错位行为。



除了在 LLM 排名中的表现之外,Petri 的核心优势在于其能够自动化处理 AI 安全的关键环节——即对模型在风险多轮场景中的行为表现进行深入测试。


研究人员从简单的指令入手,比如尝试越狱或引发欺骗行为,Petri 会启动审计智能体与模型进行交互,在对话过程中调整策略,以探测潜在的有害行为。



每次交互都会由一个评判模型根据诚实度或拒绝等维度进行评分,可疑的对话记录会被标记出来,以便后续进行人工审查。


与静态基准测试不同,Petri 专注于探索性测试,能够帮助研究人员在模型部署前快速发现边缘案例和失败模式。


Anthropic 表示,Petri 能够在几分钟内完成假设测试,显著减少了多轮安全评估通常所需的人工工作量。Anthropic 希望通过开源这一工具能够加速整个领域的对齐研究进程。


Petri 的公开发布,使其不仅仅是一个技术成果,更像是一份公开的邀请函,诚邀各界共同参与审计和改进对齐研究。


Anthropic 还发布了示例提示、评估代码,以及用于扩展工具的详细指导。


和同类工具一样,Petri 也有其已知的局限性。它的评判模型大多基于相同的底层语言模型,因此可能会继承一些微妙的偏见,比如对某些回答风格有所偏爱,或者对模糊性回答过度惩罚。


除此之外,近期的研究还发现了诸如自我偏好偏见(模型倾向于对自己生成的内容给出更积极的评价)和位置偏见等问题,这些问题都出现在使用 LLM 作为评判者的场景中。


因此,Anthropic 将 Petri 定位为一款用于探索安全性的工具,而非行业基准。它的发布为一个日益增长的趋势注入了新的动力:从静态测试集转向动态、可扩展的审计,以便在模型广泛部署之前尽早发现潜在的风险行为。


Petri 恰逢 AI 实验室内部安全工具蓬勃发展的浪潮。。OpenAI长期以来一直采用外部红队测试和自动对抗性评估等手段来确保模型的安全性。Meta也随其 Llama 3 的发布发布了负责任使用指南。


此次发布也正值各国政府纷纷着手正式制定人工智能安全要求的关键时期。英国的 AI 安全研究所和美国的 NIST AI 安全联盟都在积极为高风险模型开发评估框架,呼吁更大的透明度和标准化的风险测试,而 Petri 的出现有望加速这一重要趋势的发展。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/petri-llm-safety/

2025-10-11 09:424592

评论

发布
暂无评论

Docker小白的福音:50条Docker命令清单,干就完了!

wljslmz

Docker Linux Docker 镜像 7月月更

正则什么的,你让我写,我会难受,你让我用,真香!

掘金安东尼

前端 正则 7月月更

Qt | Qt的项目文件.pro文件详解

YOLO.

qt 7月月更

Okaleido tiger NFT即将登录Binance NFT平台,NFT权益时代即将开启

鳄鱼视界

Java中关于多线程的知识点

Java学术趴

7月日更

架构师成长:关于我在 ArchSummit 大会收获了什么

宇宙之一粟

架构 个人感悟 ArchSummit 7月月更

架构实战营模块7作业

挖了蘑菇哩斯

架构实战营

从日常小事看如何工作

耳东@Erdong

7月月更

如何分析并设计性能测试场景

老张

性能测试 需求分析

前端网络之跨域请求

Jason199

跨域 7月月更

【MySql 实战】以 sql 的方式多表联动更新数据

安逸的咸鱼

MySQL 实战 7月月更

云原生(九) | Devops篇之Jenkins安装与实战

Lansonli

云原生 7月月更

树莓派3B搭建Flink集群

程序员欣宸

Java flink 树莓派 7月月更

mysql进阶(十四) 批量更新与批量更新多条记录的不同值实现方法

No Silver Bullet

MySQL 数据库 7月月更 批量更新

一年时间过去了,LiveData真的被Flow代替了吗? LiveData会被废弃吗?

编程的平行世界

android android jetpack

关于Web响应式设计

程序员海军

Web 7月月更 响应式设计

Web3流量聚合平台Starfish OS,给玩家元宇宙新范式体验

股市老人

Okaleido tiger NFT即将登录Binance NFT平台,你期待吗?

股市老人

java零基础入门-java8新特性(中篇)

喵手

Java 7月月更

TableWidget 排序的多种方式

小肉球

qt 7月月更

python小知识-如何判断一个对象为空值

AIWeker

Python python小知识 7月月更

王者荣耀商城异地多活部署设计

Geek_e8bfe4

王者荣耀商城异地多活架构设计(架构实战营 模块七作业)

Gor

zookeeper-集群leader选举

zarmnosaj

7月月更

王者荣耀商城异地多活架构设计

Geek_7a789a

C#入门系列(二十六) -- 程序集和命名空间

陈言必行

7月月更

iOS中内存管理(Autoreleasepool)

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

STM32+ENC28J60+UIP协议栈实现WEB服务器示例

DS小龙哥

7月月更

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM_机器学习/深度学习_InfoQ精选文章