智算浪潮下的专有云操作系统安全：范式跃迁与信任链重塑

过去十年，云计算的快速发展为企业带来了前所未有的便利，越来越多行业开始深度拥抱云技术。但与此同时，数据泄露、权限滥用、供应链攻击等安全事件频发，也让不少企业，尤其是数据安全敏感度型企业，在选择云模式时多了一层顾虑。在这样的背景下，专有云凭借物理隔离、自主可控、本地化部署等特性，成为许多企业平衡云便利与安全需求的重要选择。

然而，近两年 AI 技术的爆发，又给专有云固有的安全范式带来了新的冲击，比如大模型训练需要海量数据的跨域流动、数据轨迹难追溯、生成式 AI 攻击的黑箱特性等等。AI 时代，专有云的安全信任基石究竟该如何重构？

「AI 进化论：智算时代 OS 的破局之路」第二期直播，聚焦「专有云操作系统安全」，邀请了三位阿里云的技术专家：阿里云专有云系统安全技术专家姜迎、阿里云技术专家孙维东、阿里云技术专家 / 龙蜥社区软件供应链安全架构师郑耿，共探 AI 时代专有云操作系统的安全之道。

以下为经编辑整理的专家访谈实录。

Part 1：行业趋势与核心挑战

Q1：在专有云场景下，物理隔离一直被视为安全的终极手段，但随着新技术的突破和业务场景复杂度的提升，其局限性也开始显现。如何看待物理隔离对专有云场景的价值？AI 时代对专有云的安全又提出了哪些新挑战？

姜迎：物理隔离仍是防御外部入侵的终极手段，也是合规层面的刚性需求 —— 例如政务网络要求物理切断连接以满足数据主权要求，但它无法抵御内部威胁。AI 时代的到来，让攻击路径更具自适应性、攻击手段更高级：攻击者能自动感知环境与设备信息，更容易发现内部漏洞并实现横向渗透。除此之外，专有云除了自用也会存在转售模式，并且业务也需要向混合云模式发展，还是需要透过连接公网进一步发展业务。这要求我们通过机密计算、零信任、抗量子技术等升级技术范式，以抵御这些高级威胁。

孙维东：物理隔离是专有云安全的基石，能防御各类外部攻击，如同 “最坚固的外壳”，但它无法覆盖所有攻击向量 —— 比如内部威胁，以及 AI 时代更复杂、智能化、随机化的攻击。物理隔离虽坚固但灵活性不足，在新攻击范式下，需要通过机密计算、零信任、软件供应链安全提升、国产操作系统与自主芯片协同等技术进行补充，让整个系统更安全。并非物理隔离本身过时，而是需要更灵活的技术组合。

郑耿：安全的核心始终是服务于业务。AI 时代的计算范式和业务架构发生了巨大变化，对海量数据和计算资源的需求显著提升。物理隔离从安全角度看是 “堡垒”，但会限制资源的按需调配与复用，对业务发展存在一定约束。

Q2：传统安全架构比较依赖 “边界防护” 和 “补丁管理”，但面对高级持续性威胁（APT）时往往力不从心。近年来 “零信任”“机密计算” 等理念兴起，这些技术正在如何重塑专有云的安全逻辑？从技术演进角度看，这种范式转换有何关键特征？

姜迎：AI 时代的攻防对抗不断升级，攻击模式更趋高级化 —— 例如能自适应调整攻击路径、通过深度伪造技术模拟声纹或视频等。这推动了机密计算、零信任、抗量子技术等的兴起，安全范式也从 “边界防护” 升级为 “端到端全链路保护”。

机密计算：偏向数据流防护，实现数据全生命周期加密保护 —— 数据进入可信执行空间时加密处理，出空间需经过加密审批，仅在空间内解密并运行计算。
零信任：偏向控制流管控，遵循最小权限原则，用动态身份认证（如短期访问凭据）替代传统固定密钥，强化权限管控力度。
后量子技术：应对量子计算对非对称加密算法的解密威胁。

未来安全将向机密计算、零信任、后量子技术及 AI 智能化方向演进。

孙维东：零信任和机密计算在专有云场景的应用越来越广泛。专有云虽相对隔离，但 AI 时代不同业务单元间的数据协作、流动需求显著增加。机密计算解决 “数据可用不可见” 的问题，零信任则强化动态权限管控，二者共同重塑了 “不依赖固定边界、聚焦数据和权限本身” 的安全逻辑。

Q3：国产操作系统与自主芯片的协同发展是当前行业热点，但安全能力的提升不能仅靠 “替换”，更需 “重构”。当前，在国产 OS 与自主芯片的协同中，安全信任链构建面临哪些核心挑战？

孙维东：可控是构建安全生态的重要基础，但可控不意味着绝对安全。当前自主芯片生态呈现 “百花齐放” 的特点，涌现出众多新的安全架构、设计理念与技术方案，迭代速度显著加快 —— 这为安全特性的发展提供了支撑，但也带来两大挑战：

生态不统一：操作系统是连接硬件与应用的桥梁，需衔接不同芯片的安全特性、AI 加速能力等，但芯片生态较为分散，如何平衡性能、稳定性，同时提供统一的使用方法以避免增加开发者负担，是一大难题。
安全特性抽象难：需要将不同芯片的安全特性进行统一抽象，让开发者、企业、芯片厂商、学界等能轻松参与生态开发，目前实现难度较大。

Q4：软件供应链攻击已成为增长最快的安全威胁之一，一直以来行业通用的应对之法是什么？2025 年供应链攻击呈现出哪些新态势，带来了哪些新挑战？

郑耿：软件供应链安全是保障系统研发全环节（从开源软件包引入、编码、测试、发布到使用全流程）的安全性。由于开源的普及，主流开发范式变成基于开源组件的二次开发，如果研发中引入的开源组件若存在安全问题，这些问题会随着软件供应链传导至最终的产品，引发安全风险。

传统应对思路以 “扫描 + 修复” 为主：对源码、二进制制品进行安全扫描、依赖扫描等，识别安全风险后，通过工单推动业务修复。这种方式偏被动且滞后。如今则更强调 “安全左移”—— 在需求分析、架构设计、编码等阶段提前安全工程师介入，开展安全分析和组件评估，介入越早，修复成本越低。

2025 年的新态势主要有三个：

攻击智能化：攻击者借助 AI 发起攻击，AI 的随机性和创造性让攻击更难预测，传统防护策略容易失效。
AI 自身供应链风险：AI 研发流程（从数据、模型训练、微调到部署）存在多个攻击点，已成为业界关注的热点。
云上攻击增多：AI 对数据、计算、存储资源的需求激增，企业上云比例上升，云的攻击价值提升，针对云的攻击也随之增加。

Part 2：技术突破与实践路径

Q5：从技术实践的角度来看，国产 OS 如何实现从硬件启动到应用运行的全栈可信验证？TPM（可信平台模块）与 TEE（硬件级可信执行环境）的协同在其中能发挥哪些关键作用？

孙维东：全栈可信验证的核心是保障运行环境的完整性 —— 只有完整性得到保证，机密性防护才有意义。验证过程需实现 “可度量、可验证”：

基于 TPM 的可信计算阶段：从硬件开始，逐级度量固件、操作系统内核、系统软件、应用软件（包括虚拟化、云原生组件），最终生成硬件签名报告。通过验证报告，可确认系统运行在合法硬件上，且所有软件未被篡改。
TEE（机密计算）阶段：在完整性基础上增加机密性保护，例如机密虚拟机（Confidential VM）会对内存加密，即使是宿主机管理员等拥有高级权限的攻击者，也无法获取明文数据。

TPM 与 TEE 的协同有两种主流模式：

机密虚拟机运行在裸金属服务器时，TEE 保护虚拟机内的机密性和完整性，TPM 保护宿主机软件栈的完整性，从外到内覆盖全环境。
采用 VTPM（虚拟 TPM）技术，将 VTPM 运行在机密虚拟机内，既保护 VTPM 自身安全，又能为其他虚拟机提供类物理 TPM 的安全能力。

Q6：机密计算作为突破物理隔离局限、重塑安全逻辑的关键方案，其核心技术 TEE（硬件级可信执行环境）在专有云场景落地时，经常面临性能损耗、兼容性适配等问题。如何通过技术优化解决这些难题？

姜迎：性能损耗方面，机密计算的性能已远超同态加密、联邦学习等技术。国外芯片数据显示，CPU 和内存性能损耗约 2-3%，内存密集型或 AI 业务约 3-4%；IO 损耗相对较高（7-20%），但 Trust IO 等技术已能将 IO 损耗优化至接近无损水平。国内芯片也在通过硬件卸载、加速引擎、指令集优化等提升性能；软件层面，内存异步回收、内存子系统改造、缓存文件系统等技术也能降低损耗。性能优化需要业务、系统、硬件的垂直协同设计，单一层面的优化效果有限。

兼容性方面，国外机密计算技术发展较早，开源社区已有适配主流芯片的组件；国内因芯片 “百花齐放” 且发展较晚，兼容性仍是挑战，需要通过生态标准（如抽象层）实现统一适配。此外，安全、性能、兼容性之间需要平衡，可能存在为了安全和性能牺牲部分兼容性的情况，这往往需要通过芯片定制化实现安全与性能的双重保障。

Q7：国密算法的实践落地，不仅是出于合规性要求，更是技术发展的必然演进。OS 原生集成国密算法时，在密钥管理、合规适配方面有哪些技术难点？阿里云在这方面有哪些创新实践？

郑耿：技术难点主要有四点：

基础软件支持体系尚不完善：国密算法需覆盖操作系统内核、工具链、中间件、应用层全链路，但目前基础软件适配不足，需大量适配工作才能降低上层用户的接入成本。
生态呈现碎片化特征：纯软件实现国密算法的性能损耗较大，通常需要硬件与软件协同（如硬件密码加速算子），但国内硬件生态分散，适配标准不统一，增加了开发者的使用成本。
性能问题突出：这是安全领域的共性挑战，国密算法的实现（尤其是纯软件实现）往往存在较明显的性能损耗，影响业务运行效率。
密钥管理复杂：全链路加密涉及多环节密钥，如何实现统一管理是一大难题。

阿里云的实践包括：

投入基础软件生态建设，在 Linux 内核、OpenSSL、libgcrypt、gnulib、nettle 等从内核到应用的全链路完成国密适配，并将能力贡献给上游开源社区，共建生态。
联合铜锁社区推动国密算法标准化，例如铜锁社区的 8998 RFC 标准将国密算法实现在国际社区发布，为在 TLS v1.3 协议中使用完整的商密套件提供依据。
在龙蜥社区安全联盟发起硬件安全合作计划，构建国产化的安全硬件基础设施和软件生态。
布局后量子密码，联合铜锁社区在 Tongsuo 项目中实现了部分后量子密码，应对量子计算对传统密码的冲击。

Q8：面对软件供应链攻击的新态势，从技术架构的角度来看，我们应该如何构建可验证、可追溯的软件镜像发布体系？背后需要怎样的核心技术能力去支撑？

郑耿：构建可验证、可追溯的软件镜像发布体系，需要覆盖研发全链路，每个环节都需保障安全：

源码管理：通过安全扫描、结合大模型开展源码安全分析，确保源码和构建脚本的安全性。
构建环境：加强权限管理、隔离与可信性保障，例如采用 TEE 技术构建可信构建环境，防范构建环境被攻击。
下游信任传递：通过软件物料清单（SBOM）记录研发核心信息，包括源码依赖、构建工具依赖、构建三方包依赖、发布信息等，让下游用户清晰了解交付内容，解决 “黑盒” 信任问题。
制品仓管理：制品仓是供应链攻击的高频目标，需加强安全管控，通过权限管控、制品签名等方式，防范恶意软件上传。

核心技术支撑包括：安全扫描工具、大模型安全分析能力、TEE 可信环境技术、SBOM 生成与管理工具、制品仓安全管控机制等。

Part 3：阿里云方案与行业启示

Q9：阿里云推出的 ACK-TEE 机密计算平台，在金融、医疗等敏感行业已有成功案例。能否从技术架构层面解析它是如何实现 “计算在云端，数据不出域” 的？这种模式对行业有何借鉴价值？

姜迎：ACK-TEE 本质上是基于 Kubernetes 调度的容器集群，核心是将数据计算置于 TEE 可信执行环境中，从而实现 “计算在云端，数据不出域”，主要有三种模式：

机密虚拟机模式：将容器部署在机密虚拟机内，容器调度集群的数据面部署在机密云服务器上，控制端与数据端实现隔离。数据进入 TEE 前会经过预处理与加密（覆盖存储和传输环节），计算结果出域前需加密并经过审批，全链路保障数据不泄露。
物理机机密容器模式：直接在物理机上部署基于轻量虚拟化的机密容器（如开源项目 compositional containers），由 Kubernetes 调度，依赖芯片级内存加密和隔离技术保护数据。
安全容器 + APP TEE 模式：在安全容器（基于 Cgroup、NameSpace 等实现系统级隔离）上，采用英特尔 SGX 等技术实现进程级机密保护。即使安全容器被攻破，APP TEE 仍能保障数据安全（即 “破壳不破芯”）。

借鉴价值在于：企业可根据自身部署形态（如存量云服务器、容器等）选择适配模式，降低业务迁移成本。例如，存量业务若运行在云服务器上，可基于云服务器构建垂直机密能力；若业务已采用容器，可改造为机密容器，在安全与业务连续性之间实现平衡。

Q10：国产 OS 与自主芯片的协同需要生态各方共同努力。阿里云在龙蜥社区中，是如何推动国产 OS 与自主芯片的深度适配？

孙维东：龙蜥社区是阿里云深度参与的开源生态，推动国产 OS 与自主芯片适配主要依靠三点：

上游优先原则：阿里云将在机密计算、软件供应链、国密算法等领域的安全技术，以及性能、兼容性、稳定性优化等特性，毫无保留地贡献给龙蜥社区，推动软硬件生态繁荣，形成自主芯片与国产 OS 的正向循环。
SIG 小组聚焦：社区设有机密计算、软硬件、国密等专项小组（SIG），以特定领域或课题为核心，组织芯片厂商、开发者等协同开发，让讨论与落地更聚焦高效。
生态开放性：通过开源活动吸纳学界、友商等参与，同时向国际社区（如 Coco 社区）贡献国产芯片适配代码，推动国产生态纳入国际标准，提升国际认可度。

Q11：未来三年，AI、量子计算等技术将如何重塑专有云安全？企业需重点关注哪些战略控制点？

姜迎：AI 时代的攻击将更具自主性 —— 会自适应调整路径、直击目标，甚至通过深度伪造实施攻击，这将驱动攻防对抗持续升级。防御层面则需强化 AI 智能化预测能力（例如部署 AI 哨兵系统），实现攻防的智能化升级。数据安全方面，需融合机密计算、多方计算、区块链等技术，并结合抗量子技术，从多学科角度保障数据安全。量子计算可能解密现有加密数据，因此需升级密码体系，布局量子密钥分发和后量子技术。

孙维东：从需求角度看，AI（尤其是大语言模型）的影响力让全行业意识到数据安全的重要性，对安全的要求也更高，但当前安全技术、生态与标准的迭代速度，仍难以跟上 AI 的发展节奏，这是行业普遍面临的现状。攻击的随机性和灵活性远超防御能力，即使借助 AI 进行防御，也受限于大模型的可解释性和精确性短板。量子计算的威胁则更明确 —— 它瞄准现代密码学的基石，一旦突破，现有安全技术将面临失效风险。企业需重点关注安全技术与 AI、量子计算的协同，以及生态和标准的完善。

郑耿：量子计算的破坏性具有可预见性，对基于整数分解问题和离散对数问题等的密码机制威胁最大，传统对称密码可通过加长密钥应对，或采用基于格等方式的新算法。AI 对安全领域的冲击更显著：传统安全防御是被动防御（基于历史攻击数据总结规律），在 AI 驱动的不可预测攻击面前防护效果将大打折扣，需转向 “安全韧性（Resilience）”—— 即强调主动防御和系统被攻破后的自动恢复能力。企业需要探索借助 AI 构建新的防御范式，以此提升安全韧性。

栏目介绍：
在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下，《AI 进化论：智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线，聚焦服务器操作系统在智算时代的进化之路，特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话，并以阿里巴巴服务器操作系统为例，系统性解析其技术架构、演进之路及场景应用价值，以期给行业带来启示与借鉴。

创作场景

智算浪潮下的专有云操作系统安全：范式跃迁与信任链重塑

Part 1：行业趋势与核心挑战

Part 2：技术突破与实践路径

Part 3：阿里云方案与行业启示