写点什么

Meta 发布 AutoPatchBench 基准测试,用于评估 AI 智能体修复安全漏洞的能力

  • 2025-05-16
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

大小:532.24K时长:03:01
Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力

AutoPatchBench 是一个标准化的基准测试,用于帮助研究人员和开发人员评估和比较 LLM 智能体自动修补 C/C++ 原生代码安全漏洞的有效性。


AutoPatchBench 包含了一系列测试,用于评估 LLM 为模糊测试发现的漏洞自动生成安全补丁的能力。


该基准测试旨在全面了解各种 AI 驱动的模糊测试漏洞修复方法的能力和局限性。通过提供一套一致的评估标准来促进研究的透明度和可重复性。


与用于评估软件工程智能体的通用基准测试(如 SWE-BenchSWE-Bench Verified)相比,AutoPatchBench 专注于应对模糊测试发现的漏洞,这些漏洞通常涉及安全问题。


AutoPatchBench 基于 ARVO 数据集的一个子集,ARVO 是一个包含 5000 多个真实世界 C/C++ 漏洞的数据集,这些漏洞由谷歌 OSS-Fuzz 从 250 多个项目中发现。ARVO 中的每个漏洞都有一个触发输入和开发者编写用于修复问题的规范补丁。


我们为 AutoPatchBench 保留了 136 个符合补丁生成和验证条件的样本,并从中进一步筛选出 113 个样本组成 AutoPatchBench-Lite 子集,专门用于测试 AI 补丁生成工具。这些子集涵盖了真实世界漏洞的多样性和复杂性,包含 11 种不同的崩溃类型,为推动 AI 驱动的安全解决方案奠定了坚实基础。 


模糊测试是一种通过触发人类测试人员难以触及的极端情况来发现安全漏洞的技术。正如 OpenSSF 的 Fuzz Introspector 团队所指出的,模糊测试前景广阔,但其挑战在于编写能够提供良好覆盖范围的有效模糊器


此外,通过模糊测试发现崩溃问题后,要解决这些问题并非易事。这需要全面分析崩溃堆栈跟踪以确定根本原因,然后修补代码并验证修复的有效性。AI 系统可能可以在这方面提供帮助,正如谷歌在其关于 AI 驱动补丁的技术报告以及最近的 GITS-Eval 基准测试所展示的那样。


补丁验证的一个关键方面是确保修补后的程序能够保持预期的行为,而不只是检查程序是否能够通过构建并在输入最初触发崩溃时不发生崩溃。为了解决这一问题,AutoPatchBench 应用了一种特定的技术来评估生成的补丁是否在修补函数返回后产生与真实程序相同的状态。


除了完整的包含 136 个样本的 AutoPatchBench 外,Meta 还发布了 AutoPatchBench-Lite,一个仅包含 113 个样本的子集,其中崩溃的根本原因仅限于单个函数,更适合用于处于早期开发阶段或专注于修复简单崩溃场景的工具。


AutoPatchBench 是 CyberSecEval 4 的一部分,CyberSecEval 4 是一个用于评估 LLM 漏洞防御能力的基准测试套件。Meta 开源了参考实现,供社区在采用模糊测试的开源项目中使用,或构建更好的补丁模型。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/meta-autopatchbench-ai-patching/

2025-05-16 10:465582

评论

发布
暂无评论

客户案例 | 关注老年用户体验,银行APP适老化改造要避虚就实

易观分析

用户体验 银行app 老龄化

音乐体验天花板!14个网易云音乐的情感化设计细节

张姣发

创新 交互设计 网易云音乐

一骑入秦川——浅聊Beego AutoRouter是如何工作

Regan Yue

Go 源码刨析 Go web 签约计划第三季 Beego

Mybatis中LRU缓存实现

Geek漫游指南

mybatis LRU mybatis源码

关于 StatefulWidget,你不得不知道的原理和要点!

岛上码农

flutter ios 前端 安卓开发 签约计划第三季

数据资产管理的概念

奔向架构师

数据资产 7月月更

Plato Farm通过LaaS协议Elephant Swap,为社区用户带来全新体验

股市老人

2200字详细讲解计算机网络的“流量管理员”:QoS 服务质量

wljslmz

流量控制 QoS 网络技术 7月月更

Okaleido Tiger 7.27日登录Binance NFT,首轮已获不俗成绩

BlockChain先知

传统车企数字化转型如何打通最后一公里?

雨果

车联网 DaaS数据即服务

语音直播系统——开发推送通知需要遵守的原则

开源直播系统源码

次轮Okaleido Tiger即将登录Binance NFT,引发社区热议

股市老人

小程序怎样助力智能家居生态新模式

Geek_99967b

物联网

为啥国内大厂都把云计算当成香饽饽,这个万亿市场你真的了解吗

雨果

DaaS数据即服务

C# 中的转译字符'/b'

陈言必行

7月月更

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

鳄鱼视界

React 学习记录2📝

程序员海军

React 7月月更

Bootstrap的导航元素和Well详解【前端Bootstrap框架】

恒山其若陋兮

7月月更

平成千字文(へいせいせんじもん)    (平成12年9月10日 石渡 明 作)  宇宙広遠 銀河永久 日月運行 不乱無休 地球公転 季節変移 黄道星座 太陽年周 故郷群島 南熱北冷 海洋温暖 気候順良 青空飛雲 諸野深緑 湖泉静息 谷川清流 春桜一面 新芽

贾献华

7月月更

缓存一致性与内存屏障

蝉沐风

volatile 内存屏障 缓存一致性 MESI

C# 窗体应用常用基础控件讲解(适合萌新)

IC00

C# 7月月更

Qt | 关于Qt Creator打开项目编译不过的问题

YOLO.

qt 7月月更

提前批到底影不影响正式批?

KEY.L

7月月更

聊聊自动化测试的度量指标

老张

自动化测试 质量度量

Prometheus 运维工具 Promtool (三)Debug 功能

耳东@Erdong

Prometheus 7月月更 Promtool

次轮Okaleido Tiger即将登录Binance NFT,引发社区热议

鳄鱼视界

Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力_AI&大模型_Sergio De Simone_InfoQ精选文章