2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑

  • 2025-08-20
    北京
  • 本文字数:6029 字

    阅读完需:约 20 分钟

大小:3.09M时长:18:01
智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑

过去十年,云计算的快速发展为企业带来了前所未有的便利,越来越多行业开始深度拥抱云技术。但与此同时,数据泄露、权限滥用、供应链攻击等安全事件频发,也让不少企业,尤其是数据安全敏感度型企业,在选择云模式时多了一层顾虑。在这样的背景下,专有云凭借物理隔离、自主可控、本地化部署等特性,成为许多企业平衡云便利与安全需求的重要选择。


然而,近两年 AI 技术的爆发,又给专有云固有的安全范式带来了新的冲击,比如大模型训练需要海量数据的跨域流动、数据轨迹难追溯、生成式 AI 攻击的黑箱特性等等。AI 时代,专有云的安全信任基石究竟该如何重构?



「AI 进化论:智算时代 OS 的破局之路」第二期直播,聚焦「专有云操作系统安全」,邀请了三位阿里云的技术专家:阿里云专有云系统安全技术专家 姜迎、阿里云技术专家 孙维东、阿里云技术专家 / 龙蜥社区软件供应链安全架构师 郑耿,共探 AI 时代专有云操作系统的安全之道。


以下为经编辑整理的专家访谈实录。


Part 1:行业趋势与核心挑战


Q1:在专有云场景下,物理隔离一直被视为安全的终极手段,但随着新技术的突破和业务场景复杂度的提升,其局限性也开始显现。如何看待物理隔离对专有云场景的价值?AI 时代对专有云的安全又提出了哪些新挑战?


姜迎:物理隔离仍是防御外部入侵的终极手段,也是合规层面的刚性需求 —— 例如政务网络要求物理切断连接以满足数据主权要求,但它无法抵御内部威胁。AI 时代的到来,让攻击路径更具自适应性、攻击手段更高级:攻击者能自动感知环境与设备信息,更容易发现内部漏洞并实现横向渗透。除此之外,专有云除了自用也会存在转售模式,并且业务也需要向混合云模式发展,还是需要透过连接公网进一步发展业务。这要求我们通过机密计算、零信任、抗量子技术等升级技术范式,以抵御这些高级威胁。


孙维东:物理隔离是专有云安全的基石,能防御各类外部攻击,如同 “最坚固的外壳”,但它无法覆盖所有攻击向量 —— 比如内部威胁,以及 AI 时代更复杂、智能化、随机化的攻击。物理隔离虽坚固但灵活性不足,在新攻击范式下,需要通过机密计算、零信任、软件供应链安全提升、国产操作系统与自主芯片协同等技术进行补充,让整个系统更安全。并非物理隔离本身过时,而是需要更灵活的技术组合。


郑耿:安全的核心始终是服务于业务。AI 时代的计算范式和业务架构发生了巨大变化,对海量数据和计算资源的需求显著提升。物理隔离从安全角度看是 “堡垒”,但会限制资源的按需调配与复用,对业务发展存在一定约束。


Q2:传统安全架构比较依赖 “边界防护” 和 “补丁管理”,但面对高级持续性威胁(APT)时往往力不从心。近年来 “零信任”“机密计算” 等理念兴起,这些技术正在如何重塑专有云的安全逻辑?从技术演进角度看,这种范式转换有何关键特征?


姜迎:AI 时代的攻防对抗不断升级,攻击模式更趋高级化 —— 例如能自适应调整攻击路径、通过深度伪造技术模拟声纹或视频等。这推动了机密计算、零信任、抗量子技术等的兴起,安全范式也从 “边界防护” 升级为 “端到端全链路保护”。

  • 机密计算:偏向数据流防护,实现数据全生命周期加密保护 —— 数据进入可信执行空间时加密处理,出空间需经过加密审批,仅在空间内解密并运行计算。

  • 零信任:偏向控制流管控,遵循最小权限原则,用动态身份认证(如短期访问凭据)替代传统固定密钥,强化权限管控力度。

  • 后量子技术:应对量子计算对非对称加密算法的解密威胁。

未来安全将向机密计算、零信任、后量子技术及 AI 智能化方向演进。


孙维东:零信任和机密计算在专有云场景的应用越来越广泛。专有云虽相对隔离,但 AI 时代不同业务单元间的数据协作、流动需求显著增加。机密计算解决 “数据可用不可见” 的问题,零信任则强化动态权限管控,二者共同重塑了 “不依赖固定边界、聚焦数据和权限本身” 的安全逻辑。


Q3:国产操作系统与自主芯片的协同发展是当前行业热点,但安全能力的提升不能仅靠 “替换”,更需 “重构”。当前,在国产 OS 与自主芯片的协同中,安全信任链构建面临哪些核心挑战?


孙维东:可控是构建安全生态的重要基础,但可控不意味着绝对安全。当前自主芯片生态呈现 “百花齐放” 的特点,涌现出众多新的安全架构、设计理念与技术方案,迭代速度显著加快 —— 这为安全特性的发展提供了支撑,但也带来两大挑战:

  1. 生态不统一:操作系统是连接硬件与应用的桥梁,需衔接不同芯片的安全特性、AI 加速能力等,但芯片生态较为分散,如何平衡性能、稳定性,同时提供统一的使用方法以避免增加开发者负担,是一大难题。

  2. 安全特性抽象难:需要将不同芯片的安全特性进行统一抽象,让开发者、企业、芯片厂商、学界等能轻松参与生态开发,目前实现难度较大。


Q4:软件供应链攻击已成为增长最快的安全威胁之一,一直以来行业通用的应对之法是什么?2025 年供应链攻击呈现出哪些新态势,带来了哪些新挑战?


郑耿:软件供应链安全是保障系统研发全环节(从开源软件包引入、编码、测试、发布到使用全流程)的安全性。由于开源的普及,主流开发范式变成基于开源组件的二次开发,如果研发中引入的开源组件若存在安全问题,这些问题会随着软件供应链传导至最终的产品,引发安全风险。

传统应对思路以 “扫描 + 修复” 为主:对源码、二进制制品进行安全扫描、依赖扫描等,识别安全风险后,通过工单推动业务修复。这种方式偏被动且滞后。如今则更强调 “安全左移”—— 在需求分析、架构设计、编码等阶段提前安全工程师介入,开展安全分析和组件评估,介入越早,修复成本越低。

2025 年的新态势主要有三个:

  1. 攻击智能化:攻击者借助 AI 发起攻击,AI 的随机性和创造性让攻击更难预测,传统防护策略容易失效。

  2. AI 自身供应链风险:AI 研发流程(从数据、模型训练、微调到部署)存在多个攻击点,已成为业界关注的热点。

  3. 云上攻击增多:AI 对数据、计算、存储资源的需求激增,企业上云比例上升,云的攻击价值提升,针对云的攻击也随之增加。


Part 2:技术突破与实践路径


Q5:从技术实践的角度来看,国产 OS 如何实现从硬件启动到应用运行的全栈可信验证?TPM(可信平台模块)与 TEE(硬件级可信执行环境)的协同在其中能发挥哪些关键作用?


孙维东:全栈可信验证的核心是保障运行环境的完整性 —— 只有完整性得到保证,机密性防护才有意义。验证过程需实现 “可度量、可验证”:

  • 基于 TPM 的可信计算阶段:从硬件开始,逐级度量固件、操作系统内核、系统软件、应用软件(包括虚拟化、云原生组件),最终生成硬件签名报告。通过验证报告,可确认系统运行在合法硬件上,且所有软件未被篡改。

  • TEE(机密计算)阶段:在完整性基础上增加机密性保护,例如机密虚拟机(Confidential VM)会对内存加密,即使是宿主机管理员等拥有高级权限的攻击者,也无法获取明文数据。

TPM 与 TEE 的协同有两种主流模式:

  1. 机密虚拟机运行在裸金属服务器时,TEE 保护虚拟机内的机密性和完整性,TPM 保护宿主机软件栈的完整性,从外到内覆盖全环境。

  2. 采用 VTPM(虚拟 TPM)技术,将 VTPM 运行在机密虚拟机内,既保护 VTPM 自身安全,又能为其他虚拟机提供类物理 TPM 的安全能力。


Q6:机密计算作为突破物理隔离局限、重塑安全逻辑的关键方案,其核心技术 TEE(硬件级可信执行环境)在专有云场景落地时,经常面临性能损耗、兼容性适配等问题。如何通过技术优化解决这些难题?


姜迎:性能损耗方面,机密计算的性能已远超同态加密、联邦学习等技术。国外芯片数据显示,CPU 和内存性能损耗约 2-3%,内存密集型或 AI 业务约 3-4%;IO 损耗相对较高(7-20%),但 Trust IO 等技术已能将 IO 损耗优化至接近无损水平。国内芯片也在通过硬件卸载、加速引擎、指令集优化等提升性能;软件层面,内存异步回收、内存子系统改造、缓存文件系统等技术也能降低损耗。性能优化需要业务、系统、硬件的垂直协同设计,单一层面的优化效果有限。

兼容性方面,国外机密计算技术发展较早,开源社区已有适配主流芯片的组件;国内因芯片 “百花齐放” 且发展较晚,兼容性仍是挑战,需要通过生态标准(如抽象层)实现统一适配。此外,安全、性能、兼容性之间需要平衡,可能存在为了安全和性能牺牲部分兼容性的情况,这往往需要通过芯片定制化实现安全与性能的双重保障。


Q7:国密算法的实践落地,不仅是出于合规性要求,更是技术发展的必然演进。OS 原生集成国密算法时,在密钥管理、合规适配方面有哪些技术难点?阿里云在这方面有哪些创新实践?


郑耿:技术难点主要有四点:

  1. 基础软件支持体系尚不完善:国密算法需覆盖操作系统内核、工具链、中间件、应用层全链路,但目前基础软件适配不足,需大量适配工作才能降低上层用户的接入成本。

  2. 生态呈现碎片化特征:纯软件实现国密算法的性能损耗较大,通常需要硬件与软件协同(如硬件密码加速算子),但国内硬件生态分散,适配标准不统一,增加了开发者的使用成本。

  3. 性能问题突出:这是安全领域的共性挑战,国密算法的实现(尤其是纯软件实现)往往存在较明显的性能损耗,影响业务运行效率。

  4. 密钥管理复杂:全链路加密涉及多环节密钥,如何实现统一管理是一大难题。

阿里云的实践包括:

  • 投入基础软件生态建设,在 Linux 内核、OpenSSL、libgcrypt、gnulib、nettle 等从内核到应用的全链路完成国密适配,并将能力贡献给上游开源社区,共建生态。

  • 联合铜锁社区推动国密算法标准化,例如铜锁社区的 8998 RFC 标准将国密算法实现在国际社区发布,为在 TLS v1.3 协议中使用完整的商密套件提供依据。

  • 在龙蜥社区安全联盟发起硬件安全合作计划,构建国产化的安全硬件基础设施和软件生态。

  • 布局后量子密码,联合铜锁社区在 Tongsuo 项目中实现了部分后量子密码,应对量子计算对传统密码的冲击。


Q8:面对软件供应链攻击的新态势,从技术架构的角度来看,我们应该如何构建可验证、可追溯的软件镜像发布体系?背后需要怎样的核心技术能力去支撑?


郑耿:构建可验证、可追溯的软件镜像发布体系,需要覆盖研发全链路,每个环节都需保障安全:

  1. 源码管理:通过安全扫描、结合大模型开展源码安全分析,确保源码和构建脚本的安全性。

  2. 构建环境:加强权限管理、隔离与可信性保障,例如采用 TEE 技术构建可信构建环境,防范构建环境被攻击。

  3. 下游信任传递:通过软件物料清单(SBOM)记录研发核心信息,包括源码依赖、构建工具依赖、构建三方包依赖、发布信息等,让下游用户清晰了解交付内容,解决 “黑盒” 信任问题。

  4. 制品仓管理:制品仓是供应链攻击的高频目标,需加强安全管控,通过权限管控、制品签名等方式,防范恶意软件上传。

核心技术支撑包括:安全扫描工具、大模型安全分析能力、TEE 可信环境技术、SBOM 生成与管理工具、制品仓安全管控机制等。


Part 3:阿里云方案与行业启示


Q9:阿里云推出的 ACK-TEE 机密计算平台,在金融、医疗等敏感行业已有成功案例。能否从技术架构层面解析它是如何实现 “计算在云端,数据不出域” 的?这种模式对行业有何借鉴价值?


姜迎:ACK-TEE 本质上是基于 Kubernetes 调度的容器集群,核心是将数据计算置于 TEE 可信执行环境中,从而实现 “计算在云端,数据不出域”,主要有三种模式:

  1. 机密虚拟机模式:将容器部署在机密虚拟机内,容器调度集群的数据面部署在机密云服务器上,控制端与数据端实现隔离。数据进入 TEE 前会经过预处理与加密(覆盖存储和传输环节),计算结果出域前需加密并经过审批,全链路保障数据不泄露。

  2. 物理机机密容器模式:直接在物理机上部署基于轻量虚拟化的机密容器(如开源项目 compositional containers),由 Kubernetes 调度,依赖芯片级内存加密和隔离技术保护数据。

  3. 安全容器 + APP TEE 模式:在安全容器(基于 Cgroup、NameSpace 等实现系统级隔离)上,采用英特尔 SGX 等技术实现进程级机密保护。即使安全容器被攻破,APP TEE 仍能保障数据安全(即 “破壳不破芯”)。

借鉴价值在于:企业可根据自身部署形态(如存量云服务器、容器等)选择适配模式,降低业务迁移成本。例如,存量业务若运行在云服务器上,可基于云服务器构建垂直机密能力;若业务已采用容器,可改造为机密容器,在安全与业务连续性之间实现平衡。


Q10:国产 OS 与自主芯片的协同需要生态各方共同努力。阿里云在龙蜥社区中,是如何推动国产 OS 与自主芯片的深度适配?


孙维东:龙蜥社区是阿里云深度参与的开源生态,推动国产 OS 与自主芯片适配主要依靠三点:

  1. 上游优先原则:阿里云将在机密计算、软件供应链、国密算法等领域的安全技术,以及性能、兼容性、稳定性优化等特性,毫无保留地贡献给龙蜥社区,推动软硬件生态繁荣,形成自主芯片与国产 OS 的正向循环。

  2. SIG 小组聚焦:社区设有机密计算、软硬件、国密等专项小组(SIG),以特定领域或课题为核心,组织芯片厂商、开发者等协同开发,让讨论与落地更聚焦高效。

  3. 生态开放性:通过开源活动吸纳学界、友商等参与,同时向国际社区(如 Coco 社区)贡献国产芯片适配代码,推动国产生态纳入国际标准,提升国际认可度。


Q11:未来三年,AI、量子计算等技术将如何重塑专有云安全?企业需重点关注哪些战略控制点?


姜迎:AI 时代的攻击将更具自主性 —— 会自适应调整路径、直击目标,甚至通过深度伪造实施攻击,这将驱动攻防对抗持续升级。防御层面则需强化 AI 智能化预测能力(例如部署 AI 哨兵系统),实现攻防的智能化升级。数据安全方面,需融合机密计算、多方计算、区块链等技术,并结合抗量子技术,从多学科角度保障数据安全。量子计算可能解密现有加密数据,因此需升级密码体系,布局量子密钥分发和后量子技术。


孙维东:从需求角度看,AI(尤其是大语言模型)的影响力让全行业意识到数据安全的重要性,对安全的要求也更高,但当前安全技术、生态与标准的迭代速度,仍难以跟上 AI 的发展节奏,这是行业普遍面临的现状。攻击的随机性和灵活性远超防御能力,即使借助 AI 进行防御,也受限于大模型的可解释性和精确性短板。量子计算的威胁则更明确 —— 它瞄准现代密码学的基石,一旦突破,现有安全技术将面临失效风险。企业需重点关注安全技术与 AI、量子计算的协同,以及生态和标准的完善。


郑耿:量子计算的破坏性具有可预见性,对基于整数分解问题和离散对数问题等的密码机制威胁最大,传统对称密码可通过加长密钥应对,或采用基于格等方式的新算法。AI 对安全领域的冲击更显著:传统安全防御是被动防御(基于历史攻击数据总结规律),在 AI 驱动的不可预测攻击面前防护效果将大打折扣,需转向 “安全韧性(Resilience)”—— 即强调主动防御和系统被攻破后的自动恢复能力。企业需要探索借助 AI 构建新的防御范式,以此提升安全韧性。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。

2025-08-20 15:119159

评论

发布
暂无评论
发现更多内容

Ansible 管理 Windows 机器配置过程。

耳东@Erdong

windows ansible 8月日更

聊一聊这些年看过的动漫

箭上有毒

8月日更

基于AOP和HashMap原理学习,开发Mysql分库分表路由组件!

小傅哥

小傅哥 hashmap 分库分表 aop 数据散列

破解AI开课难题!2021 全国人工智能师资培训落地厦门大学

百度大脑

人工智能

前端之算法(七)动态规划

Augus

算法 8月日更

敏捷实践 | 分不清Kanban和看板的只剩你了……

LigaAI

Scrum Kanban 敏捷开发 看板

iOS开发:Xcode自带的模拟器常用快捷键的使用

三掌柜

8月日更 8月

简简单单实现 Python Web 的登录注册页面,还包含一半逻辑。

梦想橡皮擦

8月日更

三分钟快速了解 Cglib 动态代理

4ye

Java 后端 cglib 代理模式 8月日更

Magician has released a new version

Magician网络编程包

Java Web 网络编程 io nio

【架构设计模块五】:设计微博系统中”微博评论“的高性能高可用计算架构

Ryoma

Flink 和流式应用运维(十-上)

Databri_AI

flink API REST API

敏捷开发

LeifChen

Scrum 敏捷开发 迭代 8月日更

Obsidian一个不错的软件

IT蜗壳-Tango

8月日更

从0开始的TypeScriptの十:泛型

空城机

typescript 大前端 8月日更

Go- 变量

HelloBug

变量 Go 语言

分片上传Minio存储服务的问题集锦[推荐收藏]

liuzhen007

8月日更

【设计模式】状态模式

Andy阿辉

C# 编程 后端 设计模式 8月日更

云原生时代到来了么?

escray

学习 极客时间 如何落地业务建模 8月日更

Linux之ab命令

入门小站

Linux

网络攻防学习笔记 Day108

穿过生命散发芬芳

网络安全 8月日更

JavaScript单元测试的“抹茶”组合:Mocha和Chai

devpoint

JavaScript 单元测试 8月日更

架构1期模块五作业

五只羊

架构实战营

模块五作业

老实人Honey

架构训练营

在线文字图标logo文章封面图生成工具

入门小站

工具

高可用架构(下)

编号94530

数据库 架构设计 异地多活容灾 高可用架构

蔚来事故背后,“致命弯道”在辅助驾驶和自动驾驶之间

脑极体

耗时24小时整理了网络安全学习路线,非常详细!

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

如何实现分布式锁,聊聊你的想法?

卢卡多多

redis 分布式锁 8月日更

Go- 常量

HelloBug

常量 const Go 语言

还在死磕 Ajax?那可就 out 了!

编程三昧

JavaScript 大前端 8月日更 Fetch

智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑_阿里巴巴_付秋伟_InfoQ精选文章