写点什么

Meta 发布 AutoPatchBench 基准测试,用于评估 AI 智能体修复安全漏洞的能力

  • 2025-05-16
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

大小:532.24K时长:03:01
Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力

AutoPatchBench 是一个标准化的基准测试,用于帮助研究人员和开发人员评估和比较 LLM 智能体自动修补 C/C++ 原生代码安全漏洞的有效性。


AutoPatchBench 包含了一系列测试,用于评估 LLM 为模糊测试发现的漏洞自动生成安全补丁的能力。


该基准测试旨在全面了解各种 AI 驱动的模糊测试漏洞修复方法的能力和局限性。通过提供一套一致的评估标准来促进研究的透明度和可重复性。


与用于评估软件工程智能体的通用基准测试(如 SWE-BenchSWE-Bench Verified)相比,AutoPatchBench 专注于应对模糊测试发现的漏洞,这些漏洞通常涉及安全问题。


AutoPatchBench 基于 ARVO 数据集的一个子集,ARVO 是一个包含 5000 多个真实世界 C/C++ 漏洞的数据集,这些漏洞由谷歌 OSS-Fuzz 从 250 多个项目中发现。ARVO 中的每个漏洞都有一个触发输入和开发者编写用于修复问题的规范补丁。


我们为 AutoPatchBench 保留了 136 个符合补丁生成和验证条件的样本,并从中进一步筛选出 113 个样本组成 AutoPatchBench-Lite 子集,专门用于测试 AI 补丁生成工具。这些子集涵盖了真实世界漏洞的多样性和复杂性,包含 11 种不同的崩溃类型,为推动 AI 驱动的安全解决方案奠定了坚实基础。 


模糊测试是一种通过触发人类测试人员难以触及的极端情况来发现安全漏洞的技术。正如 OpenSSF 的 Fuzz Introspector 团队所指出的,模糊测试前景广阔,但其挑战在于编写能够提供良好覆盖范围的有效模糊器


此外,通过模糊测试发现崩溃问题后,要解决这些问题并非易事。这需要全面分析崩溃堆栈跟踪以确定根本原因,然后修补代码并验证修复的有效性。AI 系统可能可以在这方面提供帮助,正如谷歌在其关于 AI 驱动补丁的技术报告以及最近的 GITS-Eval 基准测试所展示的那样。


补丁验证的一个关键方面是确保修补后的程序能够保持预期的行为,而不只是检查程序是否能够通过构建并在输入最初触发崩溃时不发生崩溃。为了解决这一问题,AutoPatchBench 应用了一种特定的技术来评估生成的补丁是否在修补函数返回后产生与真实程序相同的状态。


除了完整的包含 136 个样本的 AutoPatchBench 外,Meta 还发布了 AutoPatchBench-Lite,一个仅包含 113 个样本的子集,其中崩溃的根本原因仅限于单个函数,更适合用于处于早期开发阶段或专注于修复简单崩溃场景的工具。


AutoPatchBench 是 CyberSecEval 4 的一部分,CyberSecEval 4 是一个用于评估 LLM 漏洞防御能力的基准测试套件。Meta 开源了参考实现,供社区在采用模糊测试的开源项目中使用,或构建更好的补丁模型。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/meta-autopatchbench-ai-patching/

2025-05-16 10:465480

评论

发布
暂无评论

如何用极狐GitLab 为 iOS App 创建自动化CI/CD?详细教程来了

极狐GitLab

ios DevOps gitlab 自动化 CI/CD

边缘云特点、应用实践和发展趋势浅析

天翼云开发者社区

边缘云

LED租赁屏市场

Dylan

活动 广告 方案 设备 LED显示屏

记一次Native memory leak排查过程 | 京东云技术团队

京东科技开发者

native 企业号 6 月 PK 榜 memory leak

“Cisco Live 2023 大会”云原生观测解决方案成关键看点

乘云数字DataBuff

云原生 APM 可观测性 Cisco 智能运维AIOps

证书管理:从手工到平台化

vivo互联网技术

运维自动化 运维开发 证书管理

南通市属于几线城市?本地有正规等保测评机构吗?

行云管家

等级保护 等保测评 南通

WEB系统安全之开源软件风险使用评估

天翼云开发者社区

开源 Web

数字先锋|云上医院长什么样?宁夏固原中医医院带你一探究竟!

天翼云开发者社区

云计算

从零开始初识机器学习 | 京东云技术团队

京东科技开发者

人工智能 机器学习 企业号 6 月 PK 榜

券商数字化创新场景数据中台实践

袋鼠云数栈

数字化转型 数据治理

看这个视频,4万人学会云上部署 Stable Diffusion

Serverless Devs

云计算 Serverless 函数计算FC

Gartner®DevOps 平台魔力象限出炉,GitLab 获评「领导者」!

极狐GitLab

gitlab 安全 开放平台 开源贡献者 领导者象限

实现淘宝母婴订单实时查询和可视化|Flink-Learning实战营

Apache Flink

大数据 flink

MySQL中字符串查询效率大比拼

不在线第一只蜗牛

数据库 sql

高考成绩都出来了,你的秒杀系统如何了?

冰河

并发编程 多线程 高并发 协程 秒杀系统

6月优质更文活动结果已出炉,快来看看有没有你

InfoQ写作社区官方

热门活动 6 月 优质更文活动

如何使用 Flink SQL 探索 GitHub 数据集|Flink-Learning 实战营

Apache Flink

大数据 flink 实时计算

你说搞开发的很累,那做什么工作不累?

树上有只程序猿

程序员搞开发的时候,心态真的不稳

伤感汤姆布利柏

关于 3.0 和 2.0 的数据文件差异以及性能优化思路

爱倒腾的程序员

科兴未来|浙江丽水市第六届高层次人才创业大赛活动

科兴未来News

基于群组实现从 Azure AD 到极狐GitLab 的单点登录

极狐GitLab

统一身份认证 IdP 单点登录 用户同步 配置群组同步

linux自动化运维工具用哪款好?理由是什么?

行云管家

Linux IT运维 自动化运维

零样本视频生成无压力,基于飞桨框架实现Text2Video-Zero核心代码及依赖库

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

火山引擎A/B测试推出智能流量调优实验,助力汽车行业破局营销困境

字节跳动数据平台

Flink CDC 2.4 正式发布,新增 Vitess 数据源,PostgreSQL 和 SQL Server CDC 连接器支持增量快照,升级 Debezium 版本

Apache Flink

flink

表格检测识别技术面临的挑战和发展趋势

合合技术团队

人工智能 表格识别 表格检测

微服务之道:8个原则,打造高效的微服务体系

不在线第一只蜗牛

微服务 微服务架构

Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力_AI&大模型_Sergio De Simone_InfoQ精选文章