写点什么

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

作者:Matt Foster

  • 2025-10-11
    北京
  • 本文字数:1295 字

    阅读完需:约 4 分钟

大小:636.76K时长:03:37
开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM

在 Petri(Parallel Exploration Tool For Risky Interactions)的早期评估中,Claude Sonnet 4.5 成为在“风险任务”中表现最为出色的模型。Petri 是 Anthropic 最新推出的开源人工智能审计工具。


Petri 加入了由 OpenAI 和 Meta 构建的日益壮大的内部工具生态系统,但因其开源而脱颖而出。


随着模型能力的不断提升,安全测试正从静态基准测试向自动化、由智能体驱动的审计转变,旨在在部署前发现有害行为。


在早期试验阶段,Anthropic 对 14 个模型进行了 111 项风险任务的测试。测试过程中,每个模型都在四个关键的安全风险类别中接受了严格的评分:欺骗(明知故犯地给出错误答案)、谄媚(即使用户错误也表示同意)、权力寻求(采取行动以获得影响力或控制权)以及拒绝失败(接受本应拒绝的请求)。


Anthropic 提醒人们,尽管 Sonnet 4.5 在整体表现上最为出色,但在所有接受测试的模型中,都不同程度地存在错位行为。



除了在 LLM 排名中的表现之外,Petri 的核心优势在于其能够自动化处理 AI 安全的关键环节——即对模型在风险多轮场景中的行为表现进行深入测试。


研究人员从简单的指令入手,比如尝试越狱或引发欺骗行为,Petri 会启动审计智能体与模型进行交互,在对话过程中调整策略,以探测潜在的有害行为。



每次交互都会由一个评判模型根据诚实度或拒绝等维度进行评分,可疑的对话记录会被标记出来,以便后续进行人工审查。


与静态基准测试不同,Petri 专注于探索性测试,能够帮助研究人员在模型部署前快速发现边缘案例和失败模式。


Anthropic 表示,Petri 能够在几分钟内完成假设测试,显著减少了多轮安全评估通常所需的人工工作量。Anthropic 希望通过开源这一工具能够加速整个领域的对齐研究进程。


Petri 的公开发布,使其不仅仅是一个技术成果,更像是一份公开的邀请函,诚邀各界共同参与审计和改进对齐研究。


Anthropic 还发布了示例提示、评估代码,以及用于扩展工具的详细指导。


和同类工具一样,Petri 也有其已知的局限性。它的评判模型大多基于相同的底层语言模型,因此可能会继承一些微妙的偏见,比如对某些回答风格有所偏爱,或者对模糊性回答过度惩罚。


除此之外,近期的研究还发现了诸如自我偏好偏见(模型倾向于对自己生成的内容给出更积极的评价)和位置偏见等问题,这些问题都出现在使用 LLM 作为评判者的场景中。


因此,Anthropic 将 Petri 定位为一款用于探索安全性的工具,而非行业基准。它的发布为一个日益增长的趋势注入了新的动力:从静态测试集转向动态、可扩展的审计,以便在模型广泛部署之前尽早发现潜在的风险行为。


Petri 恰逢 AI 实验室内部安全工具蓬勃发展的浪潮。。OpenAI长期以来一直采用外部红队测试和自动对抗性评估等手段来确保模型的安全性。Meta也随其 Llama 3 的发布发布了负责任使用指南。


此次发布也正值各国政府纷纷着手正式制定人工智能安全要求的关键时期。英国的 AI 安全研究所和美国的 NIST AI 安全联盟都在积极为高风险模型开发评估框架,呼吁更大的透明度和标准化的风险测试,而 Petri 的出现有望加速这一重要趋势的发展。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/petri-llm-safety/

2025-10-11 09:42458

评论

发布
暂无评论

符号接在 busybox 中的妙用

ScratchLab

2023-06-22:一所学校里有一些班级,每个班级里有一些学生,现在每个班都会进行一场期末考试 给你一个二维数组 classes ,其中 classes[i] = [passi, totali] 表

福大大架构师每日一题

算法 福大大架构师每日一题

分布式流处理组件-生产实战:Broker节点负载

谢先生F

kafka 负载均衡 broker

在高度为h的堆中,元素个数最多和最少分别是多少?

福大大架构师每日一题

ChatGPT

敏捷项目管理工具大全

顿顿顿

敏捷项目管理 敏捷工具 scrum工具

Kubernetes集群授权管理

穿过生命散发芬芳

Kubernetes 6 月 优质更文活动

Django笔记四十四之Nginx+uWSGI部署Django以及负载均衡操作

Hunter熊

Python nginx django 负载均衡 uwsgi

OpenHarmony自定义组件

坚果

OpenHarmony 6 月 优质更文活动

Nautilus Chain:模块化Layer3的先行者

西柚子

架构实战营-模块1作业

link

TiDB 7.1资源管控和Oceanbase 4.0多租户使用对比

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

大规模 AI 高性能网络的设计与实践

Baidu AICLOUD

大模型训练 RDMA

火山引擎Dataleap数据质量解决方案和最佳实践(一):数据质量挑战

字节跳动数据平台

数据治理 数据开发 数据质量 数据研发

横看Dubbo-微服务治理之无损上线

M

微服务 dubbo 无损

基于CC2530设计智慧农业控制系统

DS小龙哥

6 月 优质更文活动

cdc任务同步错误但不会触发告警问题记录

TiDB 社区干货传送门

故障排查/诊断

AI血洗时尚圈!就连这些线上店家都开始用AI生成爆款商品了

Openlab_cosmoplat

人工智能 AI

英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

E科讯

理论+实践:从原型链到继承模式,掌握 Object 的精髓(二)

Immerse

复旦大学高校专区入驻飞桨AI Studio,优质教育资源等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

头一次见单例模式讲的如此透彻

越长大越悲伤

设计模式 单例模式

自动驾驶发展依旧处于初步阶段

数据堂

Nautilus Chain:模块化Layer3的先行者

股市老人

HAG宣布在INX平台进行STO发行

股市老人

Nautilus Chain:模块化Layer3的先行者

鳄鱼视界

时间戳与时区

ScratchLab

Nautilus Chain:模块化Layer3的先行者

BlockChain先知

CC2530+ESP8266与手机APP通信

DS小龙哥

6 月 优质更文活动

开源审计工具 Petri 评定 Claude Sonnet 4.5 为最安全的 LLM_机器学习/深度学习_InfoQ精选文章