2025云栖大会,开启通往AGI的未来之旅 了解详情
写点什么

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型

  • 2025-09-19
    北京
  • 本文字数:3186 字

    阅读完需:约 10 分钟

大小:1.46M时长:08:29
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

作者|浙江大学计算机科学与技术学院院长任奎教授团队


当前,以大模型为代表的人工智能技术在全球范围内加速演进,其发展水平和应用深度,已然成为衡量国家创新能力和综合国力的关键指标。统计显示,截至 2025 年 1 月,中国市场上共有约 197 个大模型,覆盖金融、医疗、教育、制造、汽车、能源等多个重要行业领域。面对日益复杂的网络环境与数据应用场景,大模型的安全性已成为关乎国家安全、社会稳定和公众利益的核心议题。


全球主流大模型频现包括虚假/有害内容生成、数据偏见、信息泄露等安全问题。例如,谷歌公司发布报告揭示,伊朗支持的攻击者利用 Gemini 大模型发动网络攻击,开展钓鱼攻击活动,对防务专家及机构的网络与云环境进行渗透,监视与窃取机密信息,严重威胁了国家信息安全;三星公司在引入 ChatGPT 后,短时间内便曝出多起机密资料外泄事件,导致三星公司半导体设备测量资料、源代码、产品良率等机密内容瞬间外泄,且无法收回,严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽视。当前,政府部门、华为等科技企业正积极推动国产大模型生态建设,并取得了显著成效。


然而,国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战,整体尚处于起步阶段。据研究显示,部分国产大模型早期版本在面对越狱攻击时的失守率高达 100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性,也对产业发展乃至国家安全构成潜在威胁。


针对这一全球性挑战,浙江大学联合华为计算产品线重磅推出 DeepSeek-R1-Safe 基础大模型。模型基于昇腾千卡集群,依托全流程自主可控后训练框架完成训练,整体安全防御能力提升至 83%,较原模型越狱防御增幅 115%,普通问题安全率近 100%,且通用性能接近零损耗,实现了安全性与通用性能的有效均衡。DeepSeek-R1-Safe 已在 ModelZoo、GitCode、Github、Gitee 及 ModelScope 等多个社区全面开源,遵循 DeepSeek 同样的开源策略,采用 MIT License 开放共享。任奎教授因在该项目中的开创性贡献与技术引领,被华为计算产品线授予“科研创新卓越贡献奖”。


开源地址:

https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/MindIE/LLM/DeepSeek/DeepSeek-R1-Safe

https://gitcode.com/ZJU-AISafety/DeepSeek-R1-Safe

https://www.modelscope.cn/models/ZJUAISafety/DeepSeek-R1-Safe


据悉,DeepSeek-R1-Safe 围绕“安全语料构建”、“安全模型训练”、“软硬件环境搭建”三个维度实现了关键技术突破。

自主可控的全栈式安全训练框架


团队从底层入手,构建了一套覆盖“高质量安全语料—平衡优化的安全训练—全链路自主可控软硬件平台”的全栈式安全训练框架,将安全能力深度嵌入模型的“思考”与“表达”之中。

图 1:DeepSeek-R1-Safe 内生安全训练系统框架图;图注:DeepSeek-R1-Safe 的卓越安全能力,源于自主可控的全栈式后训练框架,包括安全语料构建、安全模型训练、软硬件环境搭建三个维度上的关键突破

安全训练语料:在语料中注入内生安全基因


  1. 高质量安全训练语料:团队从后训练源头入手,创新构建了具备多元维度融合、安全价值对齐与越狱攻防强化三大特征的安全训练语料。通过系统梳理全球 13 个国家 24 项法律法规,构建覆盖 14 类主流风险的合规基准,实现了语料的多元维度融合;通过创建“风险问题-安全思维链-安全回答”三元组语料库,融入显式安全思维链,使模型具备主动风险判断与合规推导能力;引入前沿越狱方法以丰富攻击样本策略,引导模型有效抵御诱导,显著增强了模型在真实场景中的安全鲁棒性。

  2. 安全训练语料高效构建:创新提出“维度匹配-价值引导-安全检验”三位一体的全链路语料质控框架,依托模型自动化评估与专家轻量化校验,实现模型主动安全思考、细粒度风险识别与分类、思维与回复安全一致性评估,最终完成安全语料的高效自动化清洗与生成。

安全训练范式:安全思维与模型效能平衡优化


  1. 安全监督训练:首创安全核心思维模式预对齐机制,在基础训练前提炼安全语料中的核心思维模式与模型认知架构预对齐,实现快速安全思维引导;首创动态感知高效精准补偿机制,通过代表性数据微调非安全相关参数快速补偿性能。

  2. 安全强化训练首创多维可验证安全强化学习机制,提出多维细粒度安全奖励信号体系,并创新运用性能-安全帕累托最优组合策略,使模型在对抗性环境中学会自主权衡与决策,实现安全与通用能力的协同优化。

国产算力平台:国产软硬件全流程自主可控


  1. 首次实现基于昇腾千卡算力平台千亿级参数模型安全训练,开源 DeepSeek-R1-Safe 基础大模型:整套训练流程均部署于国产昇腾千卡集群,训练采用 128 台服务器,共计 1024 块昇腾国产 AI 卡进行大模型后训练。这是国内高校首次在如此大规模的昇腾算力平台上完成对 DeepSeek-R1 这种 671B 大参数规模大模型的全流程安全训练,体现出联合团队卓越的工程创新与研发能力。

  2. 首次基于昇腾服务器分布式训练环境,构建并共享了服务器间环境依赖同步、数据与权重共享、协同训练推理等一系列开发工具,显著改善提升昇腾千卡集群千亿级参数模型训练的通达性、可用性与稳定性。

模型性能测评:安全性能显著提升,通用性能保持稳定


团队整合 HarmBench、AdvBench、JailBreakBench、S-Eval 等主流安全基准评测数据,并针对现有基准在维度覆盖与攻击模式方面的不足,补充缺失风险维度数据和引入新型越狱数据,对 DeepSeek-R1-Safe 的安全性能进行系统化评估,结果表明 DeepSeek-R1-Safe 的安全性能表现突出。


一方面,DeepSeek-R1-Safe 可提供多维度全面安全防护,针对有毒有害言论、政治敏感内容、违法行为教唆等 14 个维度的普通有害问题整体防御成功率近 100%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 4%~13%。


图 2:DeepSeek-R1-Safe 多维度安全防护能力;图注:针对有毒有害言论、政治敏感内容、违法行为教唆等维度防御成功率近 100%


另一方面,DeepSeek-R1-Safe 的越狱防御能力显著提升,针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%,在同样测试设置下超过 Qwen-235B 和 DeepSeek-R1-671B 等多个同期模型 16%~23%。


图 3:DeepSeek-R1-Safe 越狱防御能力;图注:针对情境假设、角色扮演、加密编码等多个越狱模式整体防御成功率超过 40%


此外,在 MMLU、GSM8K、CEVAL 等公认通用能力基准测试中,DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损,与 Qwen-3-235B、Kimi K2-1T 等同期模型性能相当。


图 4:DeepSeek-R1-Safe 通用性能;图注:DeepSeek-R1-Safe 相比于 DeepSeek-R1 的性能损耗在 1% 以内,通用性能基本无损


面对“人工智能安全治理”这一时代课题,DeepSeek-R1-Safe 提供了一个中国答案——我们不仅追求大模型的先进性能,更致力于让大模型具备可控制、可信赖的安全防护能力。这不仅是国产大模型安全能力的一次跃升,更是对人工智能安全治理路径的一次深入探索与实践。


浙大团队表示,未来将依托区块链与数据安全全国重点实验室,与华为及所有志同道合的产业伙伴携手,推动内生安全人工智能的发展,努力实现人工智能大模型算力、数据与算法的全面自主、安全与可控。


作者介绍:


浙江大学区块链与数据安全全国重点实验室于 2022 年 11 月正式获得国家科技部批准成立。实验室由陈纯院士领衔担任主任,聚焦区块链与数据安全国际科技前沿,以实现高水平科技自立自强和打造具有世界一流的战略科技力量为己任,围绕产学研一体融合,开展系统性创新性科技攻关。实验室的研究方向主要包括自主可控新型区块链、数字资产监测与追踪、可信软件工程、结构化数据智能、时序数据智能、图数据智能、数据驱动的可信人工智能、智能车数据安全、可证明数据安全、高性能隐私计算与可信数据空间等。浙江大学鲲鹏昇腾科教创新卓越中心由浙江大学与华为技术有限公司联合成立,始终聚焦“人才培养、系统架构创新和赋能交叉学科”三大核心任务,通过算力资助及专家支持,举办特训营、研讨会和专业竞赛,已形成“产教融合、科教融汇”的创新模式。

2025-09-19 12:07463

评论

发布
暂无评论

springboot整合canal

@下一站

Java 程序开发 spring-boot 11月月更

火爆全球的“饺子皮”3D手办原来是这样做的!关键时刻少不了远程控制软件!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 远程桌面连接 RayLink

数字产业化的颠覆创新和生态打法

PMO实践

产业数字化 11月月更

在结构效率不变情况下的降本增效

PMO实践

数字化转型 数字化 数智化 11月月更

三年后端开发:拿下阿里/腾讯/美团等四个大厂的Offer后,总结如下

钟奕礼

Java Java 面试 程序员‘ java 编程

构建基于 Ingress 的全链路灰度能力

阿里巴巴云原生

阿里云 微服务 云原生w

8年程序员年初被迫毕业,前后面试30家公司,如今终于上岸

Java永远的神

程序人生 后端 java程序员 java面试 面经分享

跟误告警说再见,Smart Metrics 帮你用算法配告警

阿里巴巴云原生

阿里云 云原生 Grafana

10月&11月书单

图灵社区

书单推荐

精彩回顾 | 云原生系统软件的产业应用

BoCloud博云

云原生

关于不法分子冒用我司名义虚假招聘的严正声明

嘉为蓝鲸

Lattice - 面向高可扩展的业务框架

原力在线

架构 中台 插件 lattice 业务平台分离

瓴羊Quick BI在商业智能BI发展趋势方面如何?

对不起该用户已成仙‖

新时代冠军企业成功硬道理:人效管理与可组装式HCM SaaS

ToB行业头条

2023 重学 Angular

PingCode研发中心

前端框架

基于云原生技术的融合通信是如何实现的?

阿里云CloudImagine

阿里云 云通信

嘉为科技宋蕴真:观测不止于监控,让运维不开盲盒

嘉为蓝鲸

运维 智能运维AIOps

蓝鲸研运体系在腾讯内是如何应用实践的?

嘉为蓝鲸

运维 智能运维AIOps

阿里云洛神云网络集中式网关丨技术解读与产品实践

云布道师

云网络

MegEngine Inference 卷积优化之 Im2col 和 winograd 优化

MegEngineBot

深度学习框架 卷积 MegEngine

图计算的黄金时代 知识图谱背后的数据价值

Neo4j 图无处不在

neo4j 图数据库 知识图谱 图计算 图技术

对话Neo4j首席科学家Jim Webber:图数据库江湖5年后将尘埃落定

Neo4j 图无处不在

neo4j 图数据库 知识图谱 非关系型数据库 图技术

SpringMVC常用注解

@下一站

软件开发 程序 Java‘’ 11月月更

aPaaS是什么(aPaaS与iPaaS的区别)

优秀

aPaaS ipaas

SAP MM 使用两个STO实现免关税跨国公司间转储

SAP虾客

企业想要高效运营,还需要选择瓴羊Quick BI软件

流量猫猫头

大数据

ModelWhale 教学实训模块,更流畅的作业编写及提交体验|ModelWhale 版本更新

ModelWhale

人工智能 机器学习 数据分析 编程建模 教学实训

图数据技术护航网络安全

Neo4j 图无处不在

网络安全 neo4j 图数据库 知识图谱 图算法

互联网企业面试必问Spring源码?搞定Spring源码,看完这篇就够了

钟奕礼

Java java面试 java编程 程序员‘

腾讯云原生容器服务发布三大新能力,创新自研技术助力企业降本增效

科技热闻

MyBatis resultMap元素的用途是什么呢?

@下一站

技术 mybatis java; 11月月更

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型_AI&大模型_浙江大学任奎教授团队_InfoQ精选文章