写点什么

AI 安全新范式:京东 JoySafety 开源项目深度解析

京东安全团队

  • 2025-10-10
    北京
  • 本文字数:2439 字

    阅读完需:约 8 分钟

AI 安全新范式:京东 JoySafety 开源项目深度解析

随着大模型技术在各行业的广泛应用,安全问题日益凸显,成为制约其规模化落地的关键瓶颈。内容生成风险、数据泄露、提示词注入攻击等新型威胁频发,不仅影响用户体验,更触及监管红线。政策层面,《生成式人工智能服务管理暂行办法》等文件密集出台,明确要求大模型服务必须具备内容过滤与数据保护能力,“无安全,不上线”已成为行业共识。


然而,企业在实践中面临严峻挑战。零售、金融、医疗等行业在引入大模型时,需防范恶意诱导、保护用户隐私、阻止信息泄露,却普遍缺乏自建安全体系的能力。市场亟需一套成熟、可靠、开箱即用的安全解决方案。


在此背景下,京东于 2025 年 9 月 25 日在京举办的 JDD 大会上正式开源了大模型安全项目——JoySafety(github 仓库地址:https://github.com/jd-opensource/JoySafety)。该项目已在京东内部广泛应用,覆盖 AI 导购、物流客服、医疗问诊等数百个场景,日均调用量达亿级,攻击拦截率超过 95%,致力于为企业提供一套高效、免费、可落地的安全防护体系。大会视频直播回放详见"京东技术"视频号。

一、大模型安全风险:从隐蔽攻击到系统性威胁


大模型面临的安全威胁远非常规防护手段所能应对。以“提示词注入攻击”为例,攻击者通过语义改写、上下文诱导等手段,可轻易绕过大模型的传统防御机制。


提示词注入仅是冰山一角。根据 OWASP 发布的《大语言模型应用 Top 10 安全威胁》,系统梳理了十大核心风险:


京东在此基础上进一步扩展,从训练数据、算法、系统框架、业务应用等维度构建了更细粒度的风险分类体系,涵盖数据违规获取、模型幻觉、逻辑缺陷、恶意使用等 15 类风险。


二、防御之难:大模型特性与传统安全的天然冲突


大模型安全防御的困境,源于其技术特性与传统安全逻辑的深层矛盾:


  • 语义动态性:传统基于敏感词与规则匹配的防护方式,难以应对语义层面的诱导与变种攻击,规则迭代永远滞后于攻击演进。

  • 实时性要求:在智能客服等高交互场景中,防御延迟需控制在 100–300 毫秒内,传统事后分析模式已无法满足需求。

  • 算力成本高昂:若采用安全垂域大模型进行实时检测,日均千万次交互将带来数十万元的额外算力成本,中小厂商难以承担。

  • 流式输出与多轮交互:多轮对话中延迟累积易超出用户容忍阈值,流式输出需实时检测,进一步加剧技术复杂度。

三、京东大模型安全防御方案:构建全链路智能安全防线

面对上述挑战,京东 JoySafety 以“AI 对抗 AI”为核心理念,构建了覆盖“训练数据安全、大模型安全测评、Prompt 实时检测、生成内容实时识别”的四道防线,实现对内容安全、业务安全与信息风险的全程守护。


在落地过程中,首先建立了大模型安全风险分级分类标准,基于多个开源数据及人工标注、大模型识别、监督模型的标注机制,目前可覆盖 9 大类,200+子类安全风险的检测与识别。


其次,构建了大模型安全评测框架,通过自动衍生高质量测试集对大模型进行模拟攻击,利用三层安全检测能力对生成内容进行检测,识别风险后自动出具安全评估报告及整改建议,全流程自动化、智能化体检,实现一站式合规。


此外,建立了线上防御系统,实时检测用户输入和大模型生成内容,识别是否存在内容安全、信息安全、业务违规等风险,支持不上屏、拒答、代答及纠偏回复等多种处置机制,支持不同业务场景策略精细化配置和管理。

四、JoySafety 开源:让安全防护 “零门槛”

1. 开源内容介绍

本次开源的是 JoySafety 体系中最核心的线上实时防御系统,致力于破解内容安全领域的“不可能三角”:既要全面识别风险不漏拦,又要精准判别避免误拦,同时确保业务体验无感知。该系统融合了智能模型与柔性策略,为企业级大模型应用提供了一套成熟可靠的安全解决方案。

2. 核心原理揭秘


(1)多层模型架构:构建纵深防御体系

JoySafety 采用三层递进式检测架构,构建全方位防护体系:

  • 高效过滤层:基于轻量级模型与规则库,对高并发请求进行初筛,快速过滤无害文本,保障系统高吞吐与低延迟。

  • 语义检测层:基于 BERT 类模型的双引擎协同检测,一个用于精准识别色情、暴力、政治等风险内容,一个用于有效防御提示词注入、越狱攻击等新型威胁。

  • 深度审查层:自研 JSL-JoySafety-V1 大模型对高风险样本进行终审,具备生成内容与用户输入双重判别能力,输出细粒度风险标签,全面提升审核鲁棒性。


(2)柔性策略编排,支持业务定制

系统支持基于 DAG(有向无环图)的策略编排,业务方可自由组合检测模块,实现从通用防御到业务定制防御的平滑升级,真正做到“量体裁衣”。


(3)流式实时拦截,保障极致体验

独有的“流式输出检测+撤回”机制,在 AI 流式输出同时进行实时风险扫描,毫秒级内完成风险识别与处置,彻底解决传统“生成后审核”的体验中断问题。经大规模验证,平均检测响应时间控制在 50 毫秒以内,为高并发业务提供可靠保障。


经实战验证,JoySafety 可有效降低攻击 95%以上,在提示词注入、歧视性内容等关键风险维度表现优异,目前已为京东内部超 100 个应用提供每日亿级别请求的实时检测,成为大模型应用不可或缺的安全底座。

3.未来开源计划

开源只是起点,JoySafety 将持续拓展能力边界:下一步将开源多模态安全防护能力,覆盖图片、音频、视频等内容识别;推出大模型安全评测体系,覆盖 5 大类 31 小类风险类型;并持续增强 Agent 安全防护,包括身份权限管理、工具执行安全等核心能力,构建更完善的大模型安全生态。


如需了解更多技术细节或获取部署资源,欢迎访问:https://github.com/jd-opensource/JoySafety

五、未来展望:从被动防护到主动防御的跨越

在京东未来的 AI 安全图景中,JoySafety 将与 JSLSafeter(传统安全创新者)、JLBoost(AI 可靠性助力器)共同构成三大核心支柱 —— 前者保障大模型合规运行,中者重塑信息安全防御体系,后者提升大模型输出可信度,最终推动安全、可信的 AI 生态建设。

在 AI 技术快速演进的时代,安全已成为推动产业落地的基石。京东 JoySafety 的开源,不仅为企业提供了一套成熟可用的防护工具,更标志着大模型安全从“封闭自建”走向“开放协同”的新阶段。未来,随着生态的不断完善,JoySafety 有望成为 AI 时代安全防护的基础设施,助力全球开发者共建可信 AI 未来。

2025-10-10 20:121

评论

发布
暂无评论

2. 整体把握 CocoaPods 核心组件

Edmond

ruby ios swift CocoaPods 包管理工具

C++ 一篇搞懂继承的常见特性

小林coding

c++ 编程 继承

高效程序员的45个习惯:敏捷开发修炼之道(2)

石云升

读书笔记 敏捷开发 对事不对人 欲速则不达

央行发行的数字货币会带来哪些变化?

石云升

区块链 数字货币 DECP

C++ 手把手教你实现可变长的数组

小林coding

c++ 编程 数组

C++ 赋值运算符‘=‘的重载(浅拷贝、深拷贝)

小林coding

c++ 编程 浅拷贝和深拷贝

C++ 模板常见特性(函数模板、类模板)

小林coding

c++ 编程 模板方法

SpreadJS 纯前端表格控件应用案例:铭天预算执行系统

葡萄城技术团队

SpreadJS 预算执行系统

Java-技术专题-final关键字

码界西柚

云计算的可信新边界:边缘计算与协同未来——【两万五千字长文】

华为云开发者联盟

云计算 云原生 5G 边缘计算 云服务

使用 Golang 和 HTML5 开发一个 MacOS App

郭旭东

macos Go 语言

区块链:在发展的同时,准备好你的产品。

石云升

区块链 DCEP 创新

Go语言专家测试,80%的人第一题就挂了!

博文视点Broadview

云原生 评测 Go 语言

最佳实践:使用阿里云CDN加速OSS访问

阿里云Edge Plus

CDN

排序算法一(冒泡排序、选择排序、插入排序)

xcbeyond

Java 算法 冒泡排序 选择排序 插入排序

C++ 自增、自减运算符的重载和性能分析

小林coding

c++ 编程 运算符

C++ static 与 const 的认识

小林coding

c++ 编程 static关键字

C++ 流插入和流提取运算符的重载

小林coding

c++ 编程

知识点梳理:聊聊iOS SDK数据采集那点事儿

易观大数据

C++ this指针的理解和作用

小林coding

c c++ 指针

SpringCloud(Netflix)-技术专题-Ribbon的基本使用

码界西柚

Java 技术 SpringCloud

Volcano:带你体验容器与批量计算的碰撞的火花

华为云开发者联盟

Kubernetes 容器 分布式 Volcano 批量计算

微服务-技术专题-初步介绍服务发现

码界西柚

Java 技术 微服务

Java NIO 是 NIO么?

soolaugust

Java io nio

排序算法二(归并排序、快速排序、希尔排序)

xcbeyond

Java 算法 快速排序 归并排序 希尔排序

Linux 平均负载高了怎么办?

小林coding

Linux 问题处理 linux命令

C++ 运算符重载的基本概念

小林coding

c++ 编程

职教黄金时代,河南如何继续“乘风破浪”?

InfoQ_967a83c6d0d7

经济优势再显,江苏如何通过职教打造人才高地?

InfoQ_967a83c6d0d7

白鹭引擎助力《迷你世界》研发团队开发3D小游戏版

DT极客

C++ 一篇搞懂多态的实现原理

小林coding

c++ 编程 封装、继承、多态

AI 安全新范式:京东 JoySafety 开源项目深度解析_安全_InfoQ精选文章