写点什么

AI 安全新范式:京东 JoySafety 开源项目深度解析

京东安全团队

  • 2025-10-10
    北京
  • 本文字数:2439 字

    阅读完需:约 8 分钟

AI 安全新范式:京东 JoySafety 开源项目深度解析

随着大模型技术在各行业的广泛应用,安全问题日益凸显,成为制约其规模化落地的关键瓶颈。内容生成风险、数据泄露、提示词注入攻击等新型威胁频发,不仅影响用户体验,更触及监管红线。政策层面,《生成式人工智能服务管理暂行办法》等文件密集出台,明确要求大模型服务必须具备内容过滤与数据保护能力,“无安全,不上线”已成为行业共识。


然而,企业在实践中面临严峻挑战。零售、金融、医疗等行业在引入大模型时,需防范恶意诱导、保护用户隐私、阻止信息泄露,却普遍缺乏自建安全体系的能力。市场亟需一套成熟、可靠、开箱即用的安全解决方案。


在此背景下,京东于 2025 年 9 月 25 日在京举办的 JDD 大会上正式开源了大模型安全项目——JoySafety(github 仓库地址:https://github.com/jd-opensource/JoySafety)。该项目已在京东内部广泛应用,覆盖 AI 导购、物流客服、医疗问诊等数百个场景,日均调用量达亿级,攻击拦截率超过 95%,致力于为企业提供一套高效、免费、可落地的安全防护体系。大会视频直播回放详见"京东技术"视频号。

一、大模型安全风险:从隐蔽攻击到系统性威胁


大模型面临的安全威胁远非常规防护手段所能应对。以“提示词注入攻击”为例,攻击者通过语义改写、上下文诱导等手段,可轻易绕过大模型的传统防御机制。


提示词注入仅是冰山一角。根据 OWASP 发布的《大语言模型应用 Top 10 安全威胁》,系统梳理了十大核心风险:


京东在此基础上进一步扩展,从训练数据、算法、系统框架、业务应用等维度构建了更细粒度的风险分类体系,涵盖数据违规获取、模型幻觉、逻辑缺陷、恶意使用等 15 类风险。


二、防御之难:大模型特性与传统安全的天然冲突


大模型安全防御的困境,源于其技术特性与传统安全逻辑的深层矛盾:


  • 语义动态性:传统基于敏感词与规则匹配的防护方式,难以应对语义层面的诱导与变种攻击,规则迭代永远滞后于攻击演进。

  • 实时性要求:在智能客服等高交互场景中,防御延迟需控制在 100–300 毫秒内,传统事后分析模式已无法满足需求。

  • 算力成本高昂:若采用安全垂域大模型进行实时检测,日均千万次交互将带来数十万元的额外算力成本,中小厂商难以承担。

  • 流式输出与多轮交互:多轮对话中延迟累积易超出用户容忍阈值,流式输出需实时检测,进一步加剧技术复杂度。

三、京东大模型安全防御方案:构建全链路智能安全防线

面对上述挑战,京东 JoySafety 以“AI 对抗 AI”为核心理念,构建了覆盖“训练数据安全、大模型安全测评、Prompt 实时检测、生成内容实时识别”的四道防线,实现对内容安全、业务安全与信息风险的全程守护。


在落地过程中,首先建立了大模型安全风险分级分类标准,基于多个开源数据及人工标注、大模型识别、监督模型的标注机制,目前可覆盖 9 大类,200+子类安全风险的检测与识别。


其次,构建了大模型安全评测框架,通过自动衍生高质量测试集对大模型进行模拟攻击,利用三层安全检测能力对生成内容进行检测,识别风险后自动出具安全评估报告及整改建议,全流程自动化、智能化体检,实现一站式合规。


此外,建立了线上防御系统,实时检测用户输入和大模型生成内容,识别是否存在内容安全、信息安全、业务违规等风险,支持不上屏、拒答、代答及纠偏回复等多种处置机制,支持不同业务场景策略精细化配置和管理。

四、JoySafety 开源:让安全防护 “零门槛”

1. 开源内容介绍

本次开源的是 JoySafety 体系中最核心的线上实时防御系统,致力于破解内容安全领域的“不可能三角”:既要全面识别风险不漏拦,又要精准判别避免误拦,同时确保业务体验无感知。该系统融合了智能模型与柔性策略,为企业级大模型应用提供了一套成熟可靠的安全解决方案。

2. 核心原理揭秘


(1)多层模型架构:构建纵深防御体系

JoySafety 采用三层递进式检测架构,构建全方位防护体系:

  • 高效过滤层:基于轻量级模型与规则库,对高并发请求进行初筛,快速过滤无害文本,保障系统高吞吐与低延迟。

  • 语义检测层:基于 BERT 类模型的双引擎协同检测,一个用于精准识别色情、暴力、政治等风险内容,一个用于有效防御提示词注入、越狱攻击等新型威胁。

  • 深度审查层:自研 JSL-JoySafety-V1 大模型对高风险样本进行终审,具备生成内容与用户输入双重判别能力,输出细粒度风险标签,全面提升审核鲁棒性。


(2)柔性策略编排,支持业务定制

系统支持基于 DAG(有向无环图)的策略编排,业务方可自由组合检测模块,实现从通用防御到业务定制防御的平滑升级,真正做到“量体裁衣”。


(3)流式实时拦截,保障极致体验

独有的“流式输出检测+撤回”机制,在 AI 流式输出同时进行实时风险扫描,毫秒级内完成风险识别与处置,彻底解决传统“生成后审核”的体验中断问题。经大规模验证,平均检测响应时间控制在 50 毫秒以内,为高并发业务提供可靠保障。


经实战验证,JoySafety 可有效降低攻击 95%以上,在提示词注入、歧视性内容等关键风险维度表现优异,目前已为京东内部超 100 个应用提供每日亿级别请求的实时检测,成为大模型应用不可或缺的安全底座。

3.未来开源计划

开源只是起点,JoySafety 将持续拓展能力边界:下一步将开源多模态安全防护能力,覆盖图片、音频、视频等内容识别;推出大模型安全评测体系,覆盖 5 大类 31 小类风险类型;并持续增强 Agent 安全防护,包括身份权限管理、工具执行安全等核心能力,构建更完善的大模型安全生态。


如需了解更多技术细节或获取部署资源,欢迎访问:https://github.com/jd-opensource/JoySafety

五、未来展望:从被动防护到主动防御的跨越

在京东未来的 AI 安全图景中,JoySafety 将与 JSLSafeter(传统安全创新者)、JLBoost(AI 可靠性助力器)共同构成三大核心支柱 —— 前者保障大模型合规运行,中者重塑信息安全防御体系,后者提升大模型输出可信度,最终推动安全、可信的 AI 生态建设。

在 AI 技术快速演进的时代,安全已成为推动产业落地的基石。京东 JoySafety 的开源,不仅为企业提供了一套成熟可用的防护工具,更标志着大模型安全从“封闭自建”走向“开放协同”的新阶段。未来,随着生态的不断完善,JoySafety 有望成为 AI 时代安全防护的基础设施,助力全球开发者共建可信 AI 未来。

2025-10-10 20:126126

评论

发布
暂无评论

Flink + TiDB,体验实时数仓之美

TiDB 社区干货传送门

实践案例

如果你的 kubelet 运行在容器中,使用 local static provisioner 要注意一个问题

TiDB 社区干货传送门

招募体验官!构建实时数仓 - 当 TiDB 遇见 Pravega

TiDB 社区干货传送门

从抓包发现并解决 Navicat 编辑 TiDB 视图报错的问题

TiDB 社区干货传送门

实践案例 TiDB 底层架构

Tiflash 尝鲜小案例

TiDB 社区干货传送门

管理与运维

几分钟读懂 TiDB HTAP

TiDB 社区干货传送门

从内容角度看看TUG小伙伴都在关注些啥

TiDB 社区干货传送门

版本测评

TiDB at ZaloPay Infrastructure & Lesson Learned

TiDB 社区干货传送门

【TiDB 4.0 新 Feature 原理及实践】 Dashboard 触手体验

TiDB 社区干货传送门

TiDB 5.0 异步事务特性体验——基于X86和ARM混合部署架构

TiDB 社区干货传送门

【精选实践】TiDB 在马上消费金融核心账务系统归档及跑批业务下的实践

TiDB 社区干货传送门

实践案例

TiCDC 应用场景解析

TiDB 社区干货传送门

实践案例

日本大型移动支付软件 PayPay 的 TiDB 迁移实践

TiDB 社区干货传送门

TiDB 数据库开发规范

TiDB 社区干货传送门

AskTUG 论坛迁移实战:Discourse 从 PostgreSQL 到 MySQL 到 TiDB

TiDB 社区干货传送门

TiDB 集群的可用性详解及 TiKV Label 规划

TiDB 社区干货传送门

TiDB 底层架构

【TiDB DevCon 2020】金融专题论坛演讲视频汇总

TiDB 社区干货传送门

【技术专题】如何做数据库选型?

TiDB 社区干货传送门

实践案例

SQL只是CRUD?

TiDB 社区干货传送门

TiDB 底层架构

tiup目录冲突检测不健全导致的节点被destroy问题以及解决

TiDB 社区干货传送门

【热门问题】关于近期签名过期的处理合集

TiDB 社区干货传送门

移动云基于 TiDB 实现 serverless 数据库服务

TiDB 社区干货传送门

TiKV 集群部署 注意事项

TiDB 社区干货传送门

PD 分配 TS 的 QPS 上限揭密

TiDB 社区干货传送门

tidb开发规范

TiDB 社区干货传送门

【TiDB 最佳实践系列】乐观锁事务

TiDB 社区干货传送门

实践案例

基于阿里云ECS部署的TiDB 2.1.14升级到4.0.0-rc实践

TiDB 社区干货传送门

管理与运维 安装 & 部署

常见问题排查之 -- DM 主键冲突的原因及排查思路

TiDB 社区干货传送门

NewSQL 在微众银行核心批量场景的应用

TiDB 社区干货传送门

实践案例

TIDB 3.0.5 性能压测

TiDB 社区干货传送门

数据库架构选型

【TiDB 最佳实践系列】HAProxy

TiDB 社区干货传送门

实践案例

AI 安全新范式:京东 JoySafety 开源项目深度解析_安全_InfoQ精选文章