2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Meta 推出开源框架 LlamaFirewall,强化 AI Agent 安全防护

  • 2025-05-17
    北京
  • 本文字数:1200 字

    阅读完需:约 4 分钟

大小:581.07K时长:03:18
Meta 推出开源框架 LlamaFirewall,强化 AI Agent安全防护

LlamaFirewall是一个安全框架,旨在保护 AI Agent 免受提示注入、目标错位和不安全代码生成的威胁。在 AgentDojo 基准测试中,它在降低攻击成功率方面实现了超过 90%的效果。此外,开发人员可以通过添加新的安全护栏来更新其行为。


LlamaFirewall 是一个实时护栏监控器,作为抵御与 AI 代理相关的安全风险的最后一道防线。它包括三个保护层:PromptGuard 2,一个通用的越狱保护器;Agent Alignment Checks,一个思维链审计器,检查代理推理以识别提示注入和目标错位问题;以及 CodeShield,一个在线静态分析引擎,防止编码代理生成不安全或危险的代码。


PromptGuard 2 是一个经过微调的 BERT 风格的模型,用于检测越狱尝试,能够实时分析用户提示和不受信任的数据源。它特别针对越狱策略,如指令覆盖和令牌注入。


这些技术通常是明确的、重复的和模式丰富的,使它们更适合基于模式的检测方法。与目标劫持攻击相比,越狱行为因为其模式化和可预测性,容易被新手攻击者或自动化工具利用,作为攻击的起点。


与前代产品相比,PromptGuard 2 为 86M 参数变体带来了性能提升,为轻量级 22M 参数变体降低了延迟。


AlignmentCheck 是一个实验性的思维链审计器,检查代理的推理以识别目标劫持或错位迹象。


它不是检查单个消息,而是对整个执行轨迹进行推理,标记那些暗示隐蔽提示注入、误导工具输出或其他形式的目标劫持偏差。


Meta 的研究人员称,这是第一个能够实时审计大语言模型思维链的开源防护工具,专门用于防御注入攻击。


CodeShield 是一个针对 LLM 生成代码的在线静态分析引擎,支持 Semgrep 和基于正则表达式的规则。它可扩展,可以与八种编程语言的语法感知模式匹配,以检测潜在风险。最初作为 Llama 3 发布的一部分,CodeShield 现在已集成到 LlamaFirewall 中。


尽管 CodeShield 能够识别广泛的不安全代码模式,但它并不全面,可能会遗漏一些微妙的或依赖于上下文的漏洞。其检测效能已在 CyberSecEval3 中进行了评估,识别不安全代码的精确度达到了 96%,召回率为 79%。


PromptGuard 和 AlignmentCheck 的联合使用提高了在 AgentDojo 基准测试中的表现。此外,Meta 的研究人员建议,这种组合在 AgentDojo 覆盖范围之外的更多样化或更具普遍性的对抗场景中可能会取得更好的结果。



Meta 的研究人员描述了两个工作流程,展示了如何将 LlamaFirewall 集成到代理系统中。在第一种场景中,一个旅行规划代理使用 PromptGuard 扫描网络内容(如旅行评论)中的越狱式措辞,并丢弃可疑页面。同时,AlignmentCheck 监控代理的令牌流,以检测目标是否偏离旅行规划,如果是,则停止执行。


在第二种场景中,编码代理根据开发人员的输入生成 SQL 代码。代理从网络检索示例,并使用 CodeShield 进行检查,直到找到正确的解决方案。


LlamaFirewall 的开发将继续在多个方向上推进,包括支持多模态代理、降低延迟、扩大威胁覆盖范围以及进行更贴合实际的基准测试。


原文链接:

https://www.infoq.com/news/2025/05/llamafirewall-agent-protection/


2025-05-17 13:005082

评论

发布
暂无评论

架构实战营模块一作业

A-领悟 Lifetruth‖

#架构实战营

架构训练营模块一作业

Lemon

架构训练营

FIL挖矿怎么样?FIL挖矿靠谱吗?

SparkSQL内核剖析

永健_何

spark Sparksql

在线批量请求工具

入门小站

工具

无意中发现一个好用的前后端代码生成网

江湖一点雨

mybatis java代码 自动生成 vue自动生成 sql转实体

Pandas高级教程之:统计方法

程序那些事

Python 数据分析 pandas 程序那些事

领哆哆APP开发|领哆哆软件系统开发

架构实战营模块一作业

feitian

架构学习模块1作业

柱林

架构实战营模块一作业

SAKIN

架构实战营

云图说|华为HiLens云上管理平台,花样管理多种端侧设备

华为云开发者联盟

AI 华为云 云图说 华为HiLens EI智能体

Vchat挖矿软件开发|Vchat挖矿系统APP开发

微信业务架构图&学生管理系统架构设计

伏波

系统架构设计手册

《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设

云祁

大数据 读书笔记 数据中台 7月日更

如何用EasyRecovery 快速找回误删的截图

淋雨

EasyRecovery 文件恢复 硬盘数据恢复 固态硬盘数据恢复

微信业务架构图 & 学生系统技术架构图

木云先森

架构实战营

大数据成神之路面试合集&资源开放下载

王知无

大数据 面试

架构实战营-模块1作业:微信的业务架构及学生管理系统

喻高咏        

模块1作业(G20210698020270)

哆啦A萌

DGTT挖矿智能合约系统软件开发案例

基于Erlang语言的视频相似推荐(三十一)

Databri_AI

erlang 实时计算 推荐系统

Rust从0到1-智能指针-Deref trait

rust 智能指针 smart pointer deref

【Flutter 专题】93 图解 Dart 单线程实现异步处理之 Isolate (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

不藏了,这些Java反射用法总结都告诉你们

华为云开发者联盟

Java JVM 反射 java框架 MyBase

高级码农设计的程序能解耦,是多么重要的一件事情!

小傅哥

spring 设计模式 小傅哥 观察者模式 系统解耦

Swarm节点系统开发|Swarm节点APP软件开发

微信业务架构图#学生管理系统

桂阳

Linux之atime,ctime,mtime的区别

入门小站

Linux

dubbogo 凌烟阁之 何鑫明

apache/dubbo-go

云原生 dubbo dubbo-go dubbogo

【LeetCode】和相同的二元子数组Java题解

Albert

算法 LeetCode 7月日更

Meta 推出开源框架 LlamaFirewall,强化 AI Agent安全防护_AI&大模型_Sergio De Simone_InfoQ精选文章