2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AI 安全新范式:京东 JoySafety 开源项目深度解析

京东安全团队

  • 2025-10-10
    北京
  • 本文字数:2439 字

    阅读完需:约 8 分钟

AI 安全新范式:京东 JoySafety 开源项目深度解析

随着大模型技术在各行业的广泛应用,安全问题日益凸显,成为制约其规模化落地的关键瓶颈。内容生成风险、数据泄露、提示词注入攻击等新型威胁频发,不仅影响用户体验,更触及监管红线。政策层面,《生成式人工智能服务管理暂行办法》等文件密集出台,明确要求大模型服务必须具备内容过滤与数据保护能力,“无安全,不上线”已成为行业共识。


然而,企业在实践中面临严峻挑战。零售、金融、医疗等行业在引入大模型时,需防范恶意诱导、保护用户隐私、阻止信息泄露,却普遍缺乏自建安全体系的能力。市场亟需一套成熟、可靠、开箱即用的安全解决方案。


在此背景下,京东于 2025 年 9 月 25 日在京举办的 JDD 大会上正式开源了大模型安全项目——JoySafety(github 仓库地址:https://github.com/jd-opensource/JoySafety)。该项目已在京东内部广泛应用,覆盖 AI 导购、物流客服、医疗问诊等数百个场景,日均调用量达亿级,攻击拦截率超过 95%,致力于为企业提供一套高效、免费、可落地的安全防护体系。大会视频直播回放详见"京东技术"视频号。

一、大模型安全风险:从隐蔽攻击到系统性威胁


大模型面临的安全威胁远非常规防护手段所能应对。以“提示词注入攻击”为例,攻击者通过语义改写、上下文诱导等手段,可轻易绕过大模型的传统防御机制。


提示词注入仅是冰山一角。根据 OWASP 发布的《大语言模型应用 Top 10 安全威胁》,系统梳理了十大核心风险:


京东在此基础上进一步扩展,从训练数据、算法、系统框架、业务应用等维度构建了更细粒度的风险分类体系,涵盖数据违规获取、模型幻觉、逻辑缺陷、恶意使用等 15 类风险。


二、防御之难:大模型特性与传统安全的天然冲突


大模型安全防御的困境,源于其技术特性与传统安全逻辑的深层矛盾:


  • 语义动态性:传统基于敏感词与规则匹配的防护方式,难以应对语义层面的诱导与变种攻击,规则迭代永远滞后于攻击演进。

  • 实时性要求:在智能客服等高交互场景中,防御延迟需控制在 100–300 毫秒内,传统事后分析模式已无法满足需求。

  • 算力成本高昂:若采用安全垂域大模型进行实时检测,日均千万次交互将带来数十万元的额外算力成本,中小厂商难以承担。

  • 流式输出与多轮交互:多轮对话中延迟累积易超出用户容忍阈值,流式输出需实时检测,进一步加剧技术复杂度。

三、京东大模型安全防御方案:构建全链路智能安全防线

面对上述挑战,京东 JoySafety 以“AI 对抗 AI”为核心理念,构建了覆盖“训练数据安全、大模型安全测评、Prompt 实时检测、生成内容实时识别”的四道防线,实现对内容安全、业务安全与信息风险的全程守护。


在落地过程中,首先建立了大模型安全风险分级分类标准,基于多个开源数据及人工标注、大模型识别、监督模型的标注机制,目前可覆盖 9 大类,200+子类安全风险的检测与识别。


其次,构建了大模型安全评测框架,通过自动衍生高质量测试集对大模型进行模拟攻击,利用三层安全检测能力对生成内容进行检测,识别风险后自动出具安全评估报告及整改建议,全流程自动化、智能化体检,实现一站式合规。


此外,建立了线上防御系统,实时检测用户输入和大模型生成内容,识别是否存在内容安全、信息安全、业务违规等风险,支持不上屏、拒答、代答及纠偏回复等多种处置机制,支持不同业务场景策略精细化配置和管理。

四、JoySafety 开源:让安全防护 “零门槛”

1. 开源内容介绍

本次开源的是 JoySafety 体系中最核心的线上实时防御系统,致力于破解内容安全领域的“不可能三角”:既要全面识别风险不漏拦,又要精准判别避免误拦,同时确保业务体验无感知。该系统融合了智能模型与柔性策略,为企业级大模型应用提供了一套成熟可靠的安全解决方案。

2. 核心原理揭秘


(1)多层模型架构:构建纵深防御体系

JoySafety 采用三层递进式检测架构,构建全方位防护体系:

  • 高效过滤层:基于轻量级模型与规则库,对高并发请求进行初筛,快速过滤无害文本,保障系统高吞吐与低延迟。

  • 语义检测层:基于 BERT 类模型的双引擎协同检测,一个用于精准识别色情、暴力、政治等风险内容,一个用于有效防御提示词注入、越狱攻击等新型威胁。

  • 深度审查层:自研 JSL-JoySafety-V1 大模型对高风险样本进行终审,具备生成内容与用户输入双重判别能力,输出细粒度风险标签,全面提升审核鲁棒性。


(2)柔性策略编排,支持业务定制

系统支持基于 DAG(有向无环图)的策略编排,业务方可自由组合检测模块,实现从通用防御到业务定制防御的平滑升级,真正做到“量体裁衣”。


(3)流式实时拦截,保障极致体验

独有的“流式输出检测+撤回”机制,在 AI 流式输出同时进行实时风险扫描,毫秒级内完成风险识别与处置,彻底解决传统“生成后审核”的体验中断问题。经大规模验证,平均检测响应时间控制在 50 毫秒以内,为高并发业务提供可靠保障。


经实战验证,JoySafety 可有效降低攻击 95%以上,在提示词注入、歧视性内容等关键风险维度表现优异,目前已为京东内部超 100 个应用提供每日亿级别请求的实时检测,成为大模型应用不可或缺的安全底座。

3.未来开源计划

开源只是起点,JoySafety 将持续拓展能力边界:下一步将开源多模态安全防护能力,覆盖图片、音频、视频等内容识别;推出大模型安全评测体系,覆盖 5 大类 31 小类风险类型;并持续增强 Agent 安全防护,包括身份权限管理、工具执行安全等核心能力,构建更完善的大模型安全生态。


如需了解更多技术细节或获取部署资源,欢迎访问:https://github.com/jd-opensource/JoySafety

五、未来展望:从被动防护到主动防御的跨越

在京东未来的 AI 安全图景中,JoySafety 将与 JSLSafeter(传统安全创新者)、JLBoost(AI 可靠性助力器)共同构成三大核心支柱 —— 前者保障大模型合规运行,中者重塑信息安全防御体系,后者提升大模型输出可信度,最终推动安全、可信的 AI 生态建设。

在 AI 技术快速演进的时代,安全已成为推动产业落地的基石。京东 JoySafety 的开源,不仅为企业提供了一套成熟可用的防护工具,更标志着大模型安全从“封闭自建”走向“开放协同”的新阶段。未来,随着生态的不断完善,JoySafety 有望成为 AI 时代安全防护的基础设施,助力全球开发者共建可信 AI 未来。

2025-10-10 20:125895

评论

发布
暂无评论

神经网络与点

Nydia

云随想三 2B软件的机遇与挑战?

FLASH

云时代 2B软件

springboot文件上传下载实战 ——文件上传(1),想搞定大厂面试官

Java 程序员 后端

☕️【Java专题系列】「回顾 RateLimiter」针对于限流器的入门到精通(针对于源码分析介绍)

码界西柚

ratelimiter Guava 9月日更 限流器

架构实战营 - 模块八作业

思梦乐

前沿·探索·想象力,今年的云栖大会有啥不一样?

阿里巴巴云原生

阿里巴巴 云原生

架构实战营模块三

WolvesLeader

「架构实战营」

HarmonyOS 鸿蒙登录页搭建及 Text 文本详解

阿策小和尚

HarmonyOS Android 小菜鸟 引航计划 9月日更

高峰应对记录

编号94530

Spring Boot 2 性能压测 测试发开 高峰应对

SpringBoot之配置文件,Java开发教程入门

Java 程序员 后端

架构实战营第八模块作业

子豪sirius

架构实战营

项目管理实践篇(二):技术型PM炼成记

后台技术汇

项目管理 管理 引航计划 内容合集 管理领域

SpringBoot-自动配置-源码解析,做了5年Java

Java 程序员 后端

【LeetCode】最长递增子序列Java题解

Albert

算法 LeetCode 9月日更

SpringBoot2---指标监控,Java架构师之路

Java 程序员 后端

SpringBoot整合Redis,怎么实现发布-订阅?,一个回答引发热烈讨论

Java 程序员 后端

JavaScript中 6 个reduce()实例

devpoint

reduce 9月日更

支付宝的沙箱环境配置和使用

Brave

支付宝 支付 9月日更

20. 从工业革命到文艺复兴

Databri_AI

人工智能

PHPStorm 的使用技巧汇总

baiyutang

9月日更

谈 C++17 里的 Observer 模式 - 3

hedzr

c++ 算法 设计模式 观察者模式 Design Patterns

网络攻防学习笔记 Day142

穿过生命散发芬芳

数据中心 9月日更

学生管理系统架构设计文档

紫云

吴恩达Andrew Ng CNN卷积神经网络 论文等资料汇总 YOLOv5 新版本—改进与评估 易筋 ARTS 打卡 Week 65

John(易筋)

ARTS 打卡计划

MySQL 从入门到实践,万字详解!

前端下午茶

MySQL 数据库 大前端

这些 JS 中强大的操作符,总有几个你没听说过

前端下午茶

JavaScript 代码设计 代码技巧 基础知识

springboot文件上传下载实战 ——文件上传,Java入门

Java 程序员 后端

Coffee学架构 004 外包学生管理系统的完整架构设计

咖啡

架构设计

Linux常用命令

在即

9月日更

架构师训练营 2 期模块三作业

kazeMace

架构实战营

springboot文件上传下载实战 —— 登录功能,「高并发秒杀

Java 程序员 后端

AI 安全新范式:京东 JoySafety 开源项目深度解析_安全_InfoQ精选文章