燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,100% 日程上线 了解详情
写点什么

Meta 发布 AutoPatchBench 基准测试,用于评估 AI 智能体修复安全漏洞的能力

  • 2025-05-16
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

大小:532.24K时长:03:01
Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力

AutoPatchBench 是一个标准化的基准测试,用于帮助研究人员和开发人员评估和比较 LLM 智能体自动修补 C/C++ 原生代码安全漏洞的有效性。


AutoPatchBench 包含了一系列测试,用于评估 LLM 为模糊测试发现的漏洞自动生成安全补丁的能力。


该基准测试旨在全面了解各种 AI 驱动的模糊测试漏洞修复方法的能力和局限性。通过提供一套一致的评估标准来促进研究的透明度和可重复性。


与用于评估软件工程智能体的通用基准测试(如 SWE-BenchSWE-Bench Verified)相比,AutoPatchBench 专注于应对模糊测试发现的漏洞,这些漏洞通常涉及安全问题。


AutoPatchBench 基于 ARVO 数据集的一个子集,ARVO 是一个包含 5000 多个真实世界 C/C++ 漏洞的数据集,这些漏洞由谷歌 OSS-Fuzz 从 250 多个项目中发现。ARVO 中的每个漏洞都有一个触发输入和开发者编写用于修复问题的规范补丁。


我们为 AutoPatchBench 保留了 136 个符合补丁生成和验证条件的样本,并从中进一步筛选出 113 个样本组成 AutoPatchBench-Lite 子集,专门用于测试 AI 补丁生成工具。这些子集涵盖了真实世界漏洞的多样性和复杂性,包含 11 种不同的崩溃类型,为推动 AI 驱动的安全解决方案奠定了坚实基础。 


模糊测试是一种通过触发人类测试人员难以触及的极端情况来发现安全漏洞的技术。正如 OpenSSF 的 Fuzz Introspector 团队所指出的,模糊测试前景广阔,但其挑战在于编写能够提供良好覆盖范围的有效模糊器


此外,通过模糊测试发现崩溃问题后,要解决这些问题并非易事。这需要全面分析崩溃堆栈跟踪以确定根本原因,然后修补代码并验证修复的有效性。AI 系统可能可以在这方面提供帮助,正如谷歌在其关于 AI 驱动补丁的技术报告以及最近的 GITS-Eval 基准测试所展示的那样。


补丁验证的一个关键方面是确保修补后的程序能够保持预期的行为,而不只是检查程序是否能够通过构建并在输入最初触发崩溃时不发生崩溃。为了解决这一问题,AutoPatchBench 应用了一种特定的技术来评估生成的补丁是否在修补函数返回后产生与真实程序相同的状态。


除了完整的包含 136 个样本的 AutoPatchBench 外,Meta 还发布了 AutoPatchBench-Lite,一个仅包含 113 个样本的子集,其中崩溃的根本原因仅限于单个函数,更适合用于处于早期开发阶段或专注于修复简单崩溃场景的工具。


AutoPatchBench 是 CyberSecEval 4 的一部分,CyberSecEval 4 是一个用于评估 LLM 漏洞防御能力的基准测试套件。Meta 开源了参考实现,供社区在采用模糊测试的开源项目中使用,或构建更好的补丁模型。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/meta-autopatchbench-ai-patching/

2025-05-16 10:461

评论

发布
暂无评论

终于玩明白Golang数据可视化了!

Jackpop

【LeetCode】电话号码的字母组合Java题解

Albert

算法 LeetCode 12月日更

88邮箱-从入职到离职

D

一款好用的Maven插件 - Maven Helper

恒生LIGHT云社区

Java maven

硬核榜单 | 拍乐云荣登福布斯中国「企业科技50强」

拍乐云Pano

音视频 拍乐云 福布斯 科技企业

支撑1300+矿井监控,华为云数据库助力打造智能矿山

华为云开发者联盟

数据库 监控 华为云 数据复制服务 煤矿

当我们在谈‘数据标准’的时候,我们到底在谈什么?

圣迪

数据 主数据 数据标准 参考数据

Flutter开发:项目加载本地html文件的步骤

三掌柜

28天写作 21天挑战 12月日更 12月

Flutter 详解 Timer & ACETimerButton 自定义计时器按钮

阿策小和尚

28天写作 0 基础学习 Flutter 内容合集 签约计划第二季 12月日更

实用机器学习笔记七:数据变换

打工人!

机器学习 算法 学习笔记 12月日更

终于购买了自己的第一个硬件钱包Ledger Nano(8/28)

赵新龙

28天写作

TCP的慢启动、拥塞避免、重传、快恢复乱七八糟总是记不清?11个连环问让你一次性打通任督二脉

华为云开发者联盟

TCP 报文 TCP协议 ACK RTT

Prometheus Exporter (二十)Lustre Exporter

耳东@Erdong

Prometheus 28天写作 exporter 12月日更 Lustre

HOW

Nydia

架构实战营模块1课后作业

swallowluo

架构实战营

Flutter中如何添加垂直分隔线【Flutter 专题 18】

坚果

flutter 28天写作 12月日更

[vue3组件库]0到1参与7k Star大型开源项目成为贡献者🎃

速冻鱼

开源 大前端 签约计划第二季 12月日更

计划会议想开好,这两件事必须清楚

华为云开发者联盟

计划 敏捷 团队 计划会议 故事分解

Linux系统学习《Linux一学就会》:LVM管理和ssm存储管理器使用

侠盗安全

Linux linux运维 运维工程师 云计算架构师

程序员有哪些提升幸福感的专属神器?

Jackpop

整理的三重境界

Ian哥

28天写作 超级整理术 整理 整理的三重境界

学习宫本茂的创意

Justin

方法论 创意 28天写作

业务代码如何才能不再写出大串的if/else?

JavaEdge

12月日更

python scrapy 管道学习,并拿在行练手爬虫项目

梦想橡皮擦

12月日更

说了半天跨平台,今儿咱就来跨跨!(中)

为自己带盐

Docker jenkins 28天写作 签约计划第二季 12月日更

推开GraphQL大门

梁龙先森

签约计划第二季

入驻快讯|欢迎 OpenI 启智社区正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

使用 HTML、CSS、JS 和 API 制作一个很棒的天气 Web 应用程序

海拥(haiyong.site)

JavaScript API 28天写作 签约计划第二季 12月日更

老生常谈--什么是装箱什么是拆箱

喵叔

28天写作 12月日更

团队基建系列 - 组织知识传承 2

搬砖的周狮傅

团队协作 团队成长

初识架构设计

皓月

架构实战营 #架构实战营 「架构实战营」

Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力_AI&大模型_Sergio De Simone_InfoQ精选文章