2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

  • 2025-09-19
    北京
  • 本文字数:3186 字

    阅读完需:约 10 分钟

大小:1.46M时长:08:29
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

作者|浙江大学计算机科学与技术学院院长任奎教授团队


当前,以大模型为代表的人工智能技术在全球范围内加速演进,其发展水平和应用深度,已然成为衡量国家创新能力和综合国力的关键指标。统计显示,截至 2025 年 1 月,中国市场上共有约 197 个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域。面对日益复杂的网络环境与数据应用场景,大模型的安全性已成为关乎国家安全、社会稳定和公众利益的核心议题。


全球主流大模型频现包括虚假/有害内容生成、数据偏见、信息泄露等安全问题。例如,谷歌公司发布报告揭示,伊朗支持的攻击者利用 Gemini 大模型发动网络攻击,开展钓鱼攻击活动,对防务专家及机构的网络与云环境进行渗透,监视与窃取机密信息,严重威胁了国家信息安全;三星公司在引入 ChatGPT 后,短时间内便曝出多起机密资料外泄事件,导致三星公司半导体设备测量资料、源代码、产品良率等机密内容瞬间外泄,且无法收回,严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽视。当前,政府部门、华为等科技企业正积极推动国产大模型生态建设,并取得了显著成效。


然而,国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战,整体尚处于起步阶段。据研究显示,部分国产大模型早期版本在面对越狱攻击时的失守率高达 100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性,也对产业发展乃至国家安全构成潜在威胁。


针对这一全球性挑战,浙江大学联合华为计算产品线重磅推出 DeepSeek-R1-Safe 基础大模型。模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,整体安全防御能力提升至 83%,较原模型越狱防御增幅 115%,普通问题安全率近 100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。DeepSeek-R1-Safe 已在 ModelZoo、GitCode、Github、Gitee 及 ModelScope 等多个社区全面开源,遵循 DeepSeek 同样的开源策略,采用 MIT License 开放共享。任奎教授因在该项目中的开创性贡献与技术引领,被华为计算产品线授予“科研创新卓越贡献奖”。


开源地址:

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1-Safe

https://gitcode.com/ZJU-AISafety/DeepSeek-R1-Safe

https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe


据悉,DeepSeek-R1-Safe 围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破。

自主可控的全栈式安全训练框架


团队从底层入手,构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。

图 1:DeepSeek-R1-Safe 内生安全训练系统框架图;图注:DeepSeek-R1-Safe 的卓越安全能力,源于自主可控的全栈式后训练框架,包括安全语料构建、安全模型训练、软硬件环境搭建三个维度上的关键突破

安全训练语料:在语料中注入内生安全基因


  1. 高质量安全训练语料:团队从后训练源头入手,创新构建了具备多元维度融合、安全价值对齐与越狱攻防强化三大特征的安全训练语料。通过系统梳理全球 13 个国家 24 项法律法规,构建覆盖 14 类主流风险的合规基准,实现了语料的多元维度融合;通过创建“风险问题-安全思维链-安全回答”三元组语料库,融入显式安全思维链,使模型具备主动风险判断与合规推导能力;引入前沿越狱方法以丰富攻击样本策略,引导模型有效抵御诱导,显著增强了模型在真实场景中的安全鲁棒性。

  2. 安全训练语料高效构建:创新提出“维度匹配-价值引导-安全检验”三位一体的全链路语料质控框架,依托模型自动化评估与专家轻量化校验,实现模型主动安全思考、细粒度风险识别与分类、思维与回复安全一致性评估,最终完成安全语料的高效自动化清洗与生成。

安全训练范式:安全思维与模型效能平衡优化


  1. 安全监督训练:首创安全核心思维模式预对齐机制,在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐,实现快速安全思维引导;首创动态感知高效精准补偿机制,通过代表性数据微调非安全相关参数快速补偿性能。

  2. 安全强化训练首创多维可验证安全强化学习机制,提出多维细粒度安全奖励信号体系,并创新运用性能-安全帕累托最优组合策略,使模型在对抗性环境中学会自主权衡与决策,实现安全与通用能力的协同优化。

国产算力平台:国产软硬件全流程自主可控


  1. 首次实现基于昇腾千卡算力平台千亿级参数模型安全训练,开源 DeepSeek-R1-Safe 基础大模型:整套训练流程均部署于国产昇腾千卡集群,训练采用 128 台服务器,共计 1024 块昇腾国产 AI 卡进行大模型后训练。这是国内高校首次在如此大规模的昇腾算力平台上完成对 DeepSeek-R1 这种 671B 大参数规模大模型的全流程安全训练,体现出联合团队卓越的工程创新与研发能力。

  2. 首次基于昇腾服务器分布式训练环境,构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具,显著改善提升昇腾千卡集群千亿级参数模型训练的通达性、可用性与稳定性。

模型性能测评:安全性能显著提升,通用性能保持稳定


团队整合 HarmBench、AdvBench、JailBreakBench、S-Eval 等主流安全基准评测数据,并针对现有基准在维度覆盖与攻击模式方面的不足,补充缺失风险维度数据和引入新型越狱数据,对 DeepSeek-R1-Safe 的安全性能进行系统化评估,结果表明 DeepSeek-R1-Safe 的安全性能表现突出。


一方面,DeepSeek-R1-Safe 可提供多维度全面安全防护,针对有毒有害言论、政治敏感内容、违法行为教唆等 14 个维度的普通有害问题整体防御成功率近 100%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 4%~13%。


图 2:DeepSeek-R1-Safe 多维度安全防护能力;图注:针对有毒有害言论、政治敏感内容、违法行为教唆等维度防御成功率近 100%


另一方面,DeepSeek-R1-Safe 的越狱防御能力显著提升,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 16%~23%。


图 3:DeepSeek-R1-Safe 越狱防御能力;图注:针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%


此外,在 MMLU、GSM8K、CEVAL 等公认通用能力基准测试中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损,与 Qwen-3-235B、Kimi K2-1T 等同期模型性能相当。


图 4:DeepSeek-R1-Safe 通用性能;图注:DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损


面对“人工智能安全治理”这一时代课题,DeepSeek-R1-Safe 提供了一个中国答案——我们不仅追求大模型的先进性能,更致力于让大模型具备可控制、可信赖的安全防护能力。这不仅是国产大模型安全能力的一次跃升,更是对人工智能安全治理路径的一次深入探索与实践。


浙大团队表示,未来将依托区块链与数据安全全国重点实验室,与华为及所有志同道合的产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控。


作者介绍:


浙江大学区块链与数据安全全国重点实验室于 2022 年 11 月正式获得国家科技部批准成立。实验室由陈纯院士领衔担任主任,聚焦区块链与数据安全国际科技前沿,以实现高水平科技自立自强和打造具有世界一流的战略科技力量为己任,围绕产学研一体融合,开展系统性创新性科技攻关。实验室的研究方向主要包括自主可控新型区块链、数字资产监测与追踪、可信软件工程、结构化数据智能、时序数据智能、图数据智能、数据驱动的可信人工智能、智能车数据安全、可证明数据安全、高性能隐私计算与可信数据空间等。浙江大学鲲鹏昇腾科教创新卓越中心由浙江大学与华为技术有限公司联合成立,始终聚焦“人才培养、系统架构创新和赋能交叉学科”三大核心任务,通过算力资助及专家支持,举办特训营、研讨会和专业竞赛,已形成“产教融合、科教融汇”的创新模式。

2025-09-19 12:076201

评论

发布
暂无评论

五、《图解HTTP》- RSS和网络攻击

懒时小窝

HTTP 图解https

新零售标杆 SKG 全面拥抱 Serverless,实现敏捷交付

阿里巴巴云原生

阿里云 Serverless 云原生 合作案例

巨细靡遗流程控制,Go lang1.18入门精炼教程,由白丁入鸿儒,Go lang流程结构详解EP09

刘悦的技术博客

Go 教程 Go web go语言 Go 语言

ASP.NET Core SignalR概述

辣么大

.net SignalR 8月月更

Spring Cache设计之美,你品,你细品...

华为云开发者联盟

后端 开发

分布式系统大势所趋,银行运维如何与时俱进?

嘉为蓝鲸

架构 分布式 运维 金融 银行

注册配置、微服务治理、云原生网关三箭齐发,阿里云 MSE 持续升级

阿里巴巴云原生

阿里云 微服务 云原生 网关

【SimpleFunction系列二.2】SpringBoot注解整合Redisson分布式锁

莫逸风

分布式锁 redisson 分布式锁 企业级应用

共建共享数字世界的根:阿里云打造全面的云原生开源生态

阿里巴巴云原生

阿里云 开源 容器 RocketMQ 云原生

场景品牌易观千帆,助力数智化需求持续升级

易观分析

数字经济 数智化

私有化输出的服务网格我们是这样做的

阿里巴巴云原生

阿里云 Kubernetes 云原生 服务网格

四、《图解HTTP》- 状态码

懒时小窝

HTTP 状态码 图解https

Java将PDF拆分为多个 PDF 文件

在下毛毛雨

Java PDF 拆分PDF

王熙凤穿越到 2022 年,一定会采购的单点登录服务

Authing

【计算讲谈社】第八讲:AI 技术的“纺织业”是什么?

大咖说

人工智能 商业化

【SimpleFunction系列二.3】Redisson分布式锁8种锁模式剖析

莫逸风

分布式锁 redisson 分布式锁

动手实操,让你的 Kubernetes 集群弹起来!

以尘

弹性 ACK Kubernetes 集群 ClusterAutoscaler Erda

高效能团队的Java研发规范(进阶版)

木小风

编程规范 Java core

C#/VB.NET:在不同Excel工作簿之间复制单元格区域和工作表

Geek_249eec

C# Excel VB.NET 单元格区域 工作表

二、《图解HTTP》- HTTP协议历史发展(重点)

懒时小窝

HTTP 图解https

三、《图解HTTP》- 报文内的 HTTP信息

懒时小窝

HTTP 图解https

六、《图解HTTP》- 用户身份认证

懒时小窝

HTTP 图解https

终、《图解HTTP》读书笔记 - 汇总篇(总结)

懒时小窝

读书笔记 读书 HTTP 图解https #读书

干货合集 | 关于制品库,你了解多少?

嘉为蓝鲸

DevOps 研发 制品库

开源一夏 | 使用 JavaScript 的响应式计数器动画

海拥(haiyong.site)

开源 8月月更

开源一夏 | AngularJS对于SQL的操作心得以及DOM的研究

恒山其若陋兮

开源 8月月更

Python图像处理丨带你掌握图像几何变换

华为云开发者联盟

Python 人工智能

七、《图解HTTP》- HTTP首部和HTTP协作服务器

懒时小窝

HTTP 图解https

N、《图解HTTP》读书笔记 - 附录

懒时小窝

资料 图解https 参考数据

Linux实用命令lsof命令

flow

8月月更

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型_AI&大模型_浙江大学任奎教授团队_InfoQ精选文章