Meta 推出开源框架 LlamaFirewall，强化 AI Agent安全防护_AI&大模型_Sergio De Simone_InfoQ精选文章

首届AICon深圳正式启动｜AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册



大小：581.07K时长：03:18

Meta 推出开源框架 LlamaFirewall，强化 AI Agent安全防护

LlamaFirewall是一个安全框架，旨在保护 AI Agent 免受提示注入、目标错位和不安全代码生成的威胁。在 AgentDojo 基准测试中，它在降低攻击成功率方面实现了超过 90%的效果。此外，开发人员可以通过添加新的安全护栏来更新其行为。

LlamaFirewall 是一个实时护栏监控器，作为抵御与 AI 代理相关的安全风险的最后一道防线。它包括三个保护层：PromptGuard 2，一个通用的越狱保护器；Agent Alignment Checks，一个思维链审计器，检查代理推理以识别提示注入和目标错位问题；以及 CodeShield，一个在线静态分析引擎，防止编码代理生成不安全或危险的代码。

PromptGuard 2 是一个经过微调的 BERT 风格的模型，用于检测越狱尝试，能够实时分析用户提示和不受信任的数据源。它特别针对越狱策略，如指令覆盖和令牌注入。

这些技术通常是明确的、重复的和模式丰富的，使它们更适合基于模式的检测方法。与目标劫持攻击相比，越狱行为因为其模式化和可预测性，容易被新手攻击者或自动化工具利用，作为攻击的起点。

与前代产品相比，PromptGuard 2 为 86M 参数变体带来了性能提升，为轻量级 22M 参数变体降低了延迟。

AlignmentCheck 是一个实验性的思维链审计器，检查代理的推理以识别目标劫持或错位迹象。

它不是检查单个消息，而是对整个执行轨迹进行推理，标记那些暗示隐蔽提示注入、误导工具输出或其他形式的目标劫持偏差。

Meta 的研究人员称，这是第一个能够实时审计大语言模型思维链的开源防护工具，专门用于防御注入攻击。

CodeShield 是一个针对 LLM 生成代码的在线静态分析引擎，支持 Semgrep 和基于正则表达式的规则。它可扩展，可以与八种编程语言的语法感知模式匹配，以检测潜在风险。最初作为 Llama 3 发布的一部分，CodeShield 现在已集成到 LlamaFirewall 中。

尽管 CodeShield 能够识别广泛的不安全代码模式，但它并不全面，可能会遗漏一些微妙的或依赖于上下文的漏洞。其检测效能已在 CyberSecEval3 中进行了评估，识别不安全代码的精确度达到了 96%，召回率为 79%。

PromptGuard 和 AlignmentCheck 的联合使用提高了在 AgentDojo 基准测试中的表现。此外，Meta 的研究人员建议，这种组合在 AgentDojo 覆盖范围之外的更多样化或更具普遍性的对抗场景中可能会取得更好的结果。

Meta 的研究人员描述了两个工作流程，展示了如何将 LlamaFirewall 集成到代理系统中。在第一种场景中，一个旅行规划代理使用 PromptGuard 扫描网络内容（如旅行评论）中的越狱式措辞，并丢弃可疑页面。同时，AlignmentCheck 监控代理的令牌流，以检测目标是否偏离旅行规划，如果是，则停止执行。

在第二种场景中，编码代理根据开发人员的输入生成 SQL 代码。代理从网络检索示例，并使用 CodeShield 进行检查，直到找到正确的解决方案。

LlamaFirewall 的开发将继续在多个方向上推进，包括支持多模态代理、降低延迟、扩大威胁覆盖范围以及进行更贴合实际的基准测试。

原文链接：

https://www.infoq.com/news/2025/05/llamafirewall-agent-protection/

评论

发布

暂无评论

【LeetCode】Fizz Buzz Java题解

算法 LeetCode 10月月更

Vue进阶（幺叁肆）：npm查看包版本信息

No Silver Bullet

Vue 表单校验 10月月更

技术分享| RTC通讯中常用的图像格式

anyRTC开发者

音视频 RTC 图像格式 rgb yuv

Leetcode 题目解析：279. 完全平方数

程序员架构进阶

算法 LeetCode 动态规划 10月月更

SpringBoot 实战：在 RequestBody 中优雅的使用枚举参数（原理篇）

Java Spring Boot Effective Spring 10月月更

”微博评论“的高性能高可用计算架构

架构设计实战

《沸腾新十年》背后的N重空间

博文视点Broadview

直播分发选低延迟 RTC 还是 CDN？

融云 RongCloud

keytool生成keystore、truststore、证书

015云原生之大数据技术

穿过生命散发芬芳

云原生 10月月更

智能运维之日志语义异常检测

云智慧AIOps社区

日志数据处理异常检测智能运维算法实践

第 16 章 -《Linux 一学就会》- Linux计划任务与日志的管理

Linux linux运维 linux学习 linux一学就会

火山引擎MARS-APM Plus x 飞书｜降低线上OOM，提高App性能稳定性

字节跳动终端技术

ios android 大前端 MARS-APMPlus

青岛敏捷之旅，来了！

禅道项目管理

敏捷敏捷教练青岛

喜大普奔！焱融科技正式推出 SaaS 数据服务平台

云计算高性能公有云文件存储分布式，

SSRF漏洞实例分析

网络安全学海

网络安全信息安全渗透测试 WEB安全漏洞分析

Prometheus 基础查询（一）

Prometheus 10月月更

粪菌移植的背后，肠道菌那些你不知道的事儿

linux中vi,vim操作技巧

小知识系列:查询数据库数据的元信息

程序那些事

Java 数据库元数据程序那些事

阿里架构师总结Go语言和java语言之间的对比联系

python 数据库编程，这篇是针对 mysql 的，滚雪球学Python第4季第13篇

梦想橡皮擦

【Flutter 专题】30 图解自定义底部状态栏 ACEBottomNavigationBar (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

存量时代会员深度运营逻辑

深度思考运营

并发相关的性质学习笔记

并发 10月月更

Facebook宕机事故，暴露了上云不是唯一的答案

快速配置浏览器 https 访问 Kibana（qbit）

elasticsearch TLS Kibana ssl

【Vuex 源码学习】第十二篇 - Vuex 插件机制的实现

源码 vuex 10月月更

在线下划线转驼峰，驼峰转下划线工具

CSS架构之Components层

CSS 10月月更

IM系统消息丢失问题排查反思

IM Android; 10月月更