免费注册!6月19-20日,「亚马逊云科技中国峰会」重磅来袭! 了解详情
写点什么

Meta 发布 AutoPatchBench 基准测试,用于评估 AI 智能体修复安全漏洞的能力

  • 2025-05-16
    北京
  • 本文字数:1087 字

    阅读完需:约 4 分钟

大小:532.24K时长:03:01
Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力

AutoPatchBench 是一个标准化的基准测试,用于帮助研究人员和开发人员评估和比较 LLM 智能体自动修补 C/C++ 原生代码安全漏洞的有效性。


AutoPatchBench 包含了一系列测试,用于评估 LLM 为模糊测试发现的漏洞自动生成安全补丁的能力。


该基准测试旨在全面了解各种 AI 驱动的模糊测试漏洞修复方法的能力和局限性。通过提供一套一致的评估标准来促进研究的透明度和可重复性。


与用于评估软件工程智能体的通用基准测试(如 SWE-BenchSWE-Bench Verified)相比,AutoPatchBench 专注于应对模糊测试发现的漏洞,这些漏洞通常涉及安全问题。


AutoPatchBench 基于 ARVO 数据集的一个子集,ARVO 是一个包含 5000 多个真实世界 C/C++ 漏洞的数据集,这些漏洞由谷歌 OSS-Fuzz 从 250 多个项目中发现。ARVO 中的每个漏洞都有一个触发输入和开发者编写用于修复问题的规范补丁。


我们为 AutoPatchBench 保留了 136 个符合补丁生成和验证条件的样本,并从中进一步筛选出 113 个样本组成 AutoPatchBench-Lite 子集,专门用于测试 AI 补丁生成工具。这些子集涵盖了真实世界漏洞的多样性和复杂性,包含 11 种不同的崩溃类型,为推动 AI 驱动的安全解决方案奠定了坚实基础。 


模糊测试是一种通过触发人类测试人员难以触及的极端情况来发现安全漏洞的技术。正如 OpenSSF 的 Fuzz Introspector 团队所指出的,模糊测试前景广阔,但其挑战在于编写能够提供良好覆盖范围的有效模糊器


此外,通过模糊测试发现崩溃问题后,要解决这些问题并非易事。这需要全面分析崩溃堆栈跟踪以确定根本原因,然后修补代码并验证修复的有效性。AI 系统可能可以在这方面提供帮助,正如谷歌在其关于 AI 驱动补丁的技术报告以及最近的 GITS-Eval 基准测试所展示的那样。


补丁验证的一个关键方面是确保修补后的程序能够保持预期的行为,而不只是检查程序是否能够通过构建并在输入最初触发崩溃时不发生崩溃。为了解决这一问题,AutoPatchBench 应用了一种特定的技术来评估生成的补丁是否在修补函数返回后产生与真实程序相同的状态。


除了完整的包含 136 个样本的 AutoPatchBench 外,Meta 还发布了 AutoPatchBench-Lite,一个仅包含 113 个样本的子集,其中崩溃的根本原因仅限于单个函数,更适合用于处于早期开发阶段或专注于修复简单崩溃场景的工具。


AutoPatchBench 是 CyberSecEval 4 的一部分,CyberSecEval 4 是一个用于评估 LLM 漏洞防御能力的基准测试套件。Meta 开源了参考实现,供社区在采用模糊测试的开源项目中使用,或构建更好的补丁模型。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/05/meta-autopatchbench-ai-patching/

2025-05-16 10:465325

评论

发布
暂无评论

同为 Binance Labs 投资 ,APX Finance 与 Astherus 合并意味几何?

股市老人

当前热门 DApp 模式解析:六大方向的趋势与创新

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

AICon北京站HarmonyOS技术分论坛开启招募,欢迎开发者踊跃报名

最新动态

【开源大屏】玩转开源积木BI,从0到1设计一个大屏

JEECG低代码

数据分析 数据可视化 BI 分析工具 数据大屏

币安移除铭文市场的背后:对区块链、加密市场及用户的影响

chainwiseweb3

区块链技术 dapp开发 BTC铭文 交易所系统 铭文系统

年终总结报告ppt怎么做?用AI工具快速自动生成!

职场工具箱

职场 PPT 年终总结 AIGC AI生成PPT

2025年度计划如何制定?10个年度计划模板推荐!

职场工具箱

项目管理 职场 可视化 年度计划 办公软件

AutoMQ 如何在 AWS 上避免 Kafka 跨 AZ 网络传输费用

AutoMQ

kafak Java开发分析工具 AutoMQ AZs 好文翻译

通义灵码,让梦想照进现实更快一点

阿里巴巴云原生

阿里云 云原生

通义灵码,让梦想照进现实更快一点

阿里云云效

阿里云 云原生

智保未来:国泰产险的 AI 网关革新之旅

阿里巴巴云原生

阿里云 云原生

CCS'24(全球网络安全四大顶级会议之一)收录云起无垠最新研究成果

云起无垠

富士胶片中国可持续发展报告获上海跨国公司地区总部优秀ESG报告

财见

天翼云携手华为共建魔乐社区,共创AI生态新篇章

极客天地

C语言之输入输出

不在线第一只蜗牛

C# 开发语言

币安移除铭文市场的深度解读:背后原因及其对区块链行业的影响

chainwiseweb3

DAPP系统开发 区块链技术开发 dapp开发 铭文 铭文系统开发

苹果电脑玩王者荣耀用什么软件怎么操作?

阿拉灯神丁

游戏 王者荣耀 手游 CrossOver Mac下载 mac游戏模拟器

Sora之后,视频生成模型的中国牌局

脑极体

AI

活动报名:Voice Agent 开发者分享会丨RTE Meetup

声网

又双叒叕出来了一款船新Copilot!腾讯终于发大招了!码农们又可以丝滑摸鱼啦~

左诗右码

Ape-DTS:开源 DTS 工具,助力自建 MySQL、PostgreSQL 迁移上云

小猿姐

MySQL 数据库 postgresql 数据传输 数据迁移

融云 IM 基于 Rust 的鸿蒙 SDK 开发实践

融云 RongCloud

使用观测云排查数据库死锁故障

观测云

数据库

Meta发布AutoPatchBench基准测试,用于评估AI智能体修复安全漏洞的能力_AI&大模型_Sergio De Simone_InfoQ精选文章