大模型已成为当下 AI 产业最大热点。随着 OpenAI 发布 ChatGPT，行业普遍认为超大规模 AI 模型已达到实践可用状态。除了 OpenAI 的 1750 亿参数 GPT-3、1.8 万亿参数 GPT-4 外，互联网公司也相继推出了文心一言、盘古、混元、Titan、PaLM 等大模型产品。Meta 还在日前发布了开放的 LLaMA 模型的升级版本 Llama 2，将开放大模型的参数规模推到了 700 亿级别。

与此同时，业界也正在积极探索大模型的应用场景，包括图像和视频识别、AIGC、智能客服、智能文本总结、代码辅助生成、欺诈分析、流程自动化、无人驾驶等众多细分领域的应用中，都出现了大模型的身影。大模型最吸引人的特性便是强大的分析和交互能力，这种能力被看作是通用人工智能（AGI）时代来临前的曙光。

然而，大模型背后依赖的是规模庞大的训练数据与交互数据，受限于人工智能的黑盒机制，无论是研究人员还是运维人员都难以完全掌控大模型中的数据。这就意味着大模型在实践中不可避免地会带来敏感数据的安全挑战。为了应对这一问题，一种方法是从软件着手构筑数据藩篱，基于密码学机制保护数据，但这样的方法往往会带来很高的系统开销，也不能从根本上缩小攻击面、免除软件漏洞带来的风险和威胁。另一种方法则是基于硬件级的加密机制，通过芯片构建的可信任执行环境来保护数据。这种技术希望通过天然具备高度安全性的硬件加密体系对抗数据的泄露和窃取风险，它被称为机密计算。

近日，InfoQ 与英特尔联合打造的「英特尔^® 至强^® 实战课」特别邀请到了英特尔公司首席工程师宋川、阿里云机密计算安全专家于国瑞与阿里云高级安全专家刘煜堃，就云计算时代的数据安全主题展开分享。三位着重讨论了如何通过机密计算技术破解数据开放共享环境中的数据隐私保护、数据确权等瓶颈，从而让数据真正安全通畅地流通并发挥价值。InfoQ 基于本场分享内容整理成文，希望对大家有所帮助。

大模型时代的云端数据安全困境

今年三月，三星电子刚刚在企业内部引入 ChatGPT 服务不久，就发生了三起机密数据泄露事件。部分员工将涉及半导体生产的机密代码与内部会议信息输入 ChatGPT 端口，导致这些敏感资料被上传至美国服务器，极可能已经泄漏。事件发生后，三星迅速采取措施约束员工使用 ChatGPT 的场景和行为，也引发了行业对于这类大模型技术带来的数据隐私和安全问题的讨论。

客观而言，在互联网时代，任何向云端上传数据的行为都具有潜在的安全风险。云计算刚刚兴起的时代，就有很多企业担忧敏感数据被云服务商泄露，拒绝将其上传至云端。时至今日，仍有大批企业在本地存储隐私数据来增强安全性，云服务商仍然没有完全赢得企业的信任。

而大模型的热潮则令这一问题雪上加霜。一方面，由于大模型训练、运营所需的成本极为高昂，极少有企业能够负担巨大的投资而在本地建设自有大模型服务。另一方面，由云服务商提供的大模型服务在训练和交互时需要海量数据，尤其是特定领域的数据。大模型掌握的领域数据越多，特别是与企业研发、运营相关的数据越多，输出的效果往往越令人满意。例如，企业开发人员使用 AI 代码辅助生成工具时，一般需要上传企业已有的代码库，使大模型给出更精准的代码预测结果；企业营销人员将过往的营销材料输入大模型，就可以自动生成高质量的营销内容，提升工作效率。

与此同时，提供大模型服务的云厂商一般会同时服务众多客户，而大模型在获得各个企业的数据后，如何将这些数据充分隔离在每个客户的服务范围之内，就成为了困扰云厂商与企业的一大难题。一旦数据的隔离失败，从甲客户获得的数据就可能被用在对乙客户给出的交互回答中，造成数据泄露。如果企业上传的大量隐私机密数据未能得到充分保护，恶意攻击者或者云厂商内部的恶意人士就可能利用软件漏洞或职权获取这些信息，攫取不当利益的同时，也对企业造成了无可估量的伤害。考虑到大模型所需的训练和交互数据数量庞大，远远超过以往企业上传到云端的规模，这种风险相比过去也有数量级的增长。

正是在这种背景下，机密计算技术的重要性愈发凸显，它通过硬件级的加密体系来一劳永逸地解决云端数据的安全挑战，为大模型的全面推广奠定了安全与信任的基础。

机密计算，解决云端数据隔离难题的创新路径

基于硬件芯片级的加密技术，保护数据安全的做法有着很长的历史。早在 2008 年，微软就在 Windows Vista 和 Windows Server 2008 操作系统中引入了 Bitlocker 加密，可利用 PC 中安装的 TPM 硬件受信任安全模块来加强登录等交互过程的安全性。随着 iPhone 等智能手机广泛流行，对设备存储的数据进行全盘加密，并将加密密钥保存在手机芯片内部的设计也成为行业事实标准。

随着云计算的成熟和普及，云服务厂商和硬件提供商开始利用硬件加密的概念武装云端集群，将类似的技术部署在云服务器内的 CPU 中，这一做法和理念被称为机密计算。机密计算使用处理器内独有的加密密钥创建可信的执行环境（TEE），其支持加密签名证明，防止他人查看或更改环境内部的数据或应用代码。

应用的执行过程中，加密数据首先被传入 TEE，在其中解密并运行，生成的结果会被加密并传出 TEE 。整个过程中，即使是机器所有者自身都无法查看用户传入 TEE 的任何数据。在这样的机制下，用户就无需担心云端服务器是否被攻破、机密数据是否泄露到了其他用户的内存区域，或者服务器所有者是否会利用权限查看数据。只要用户信任 TEE，就能相信自己的数据处于安全可靠的隔离状态中。而要篡改基于硬件加密的 TEE，理论上需要修改芯片物理层面的晶体管设计，这显然是不可能做到的。正因如此，机密计算被认为是解决云端数据安全挑战的终极手段。

机密计算的另一大优势是计算开销较小，对性能几乎没有影响。由于芯片内部的安全区与加解密操作都由专用的硬件单元执行，用户的程序并不会因为这些过程而被拖慢运行效率。综合来看，机密计算在云时代，尤其是大模型流行的今天有着非常广阔的前景，可以极大程度上减少行业对数据泄露的担忧。

从 SGX 到 TDX，英特尔机密计算技术概览

如前所述，机密计算主要解决三大问题：

数据的机密性，确保数据在使用过程中不发生外泄。
数据的完整性，确保数据在处理过程中没有被篡改。
访问数据的程序的完整性，确保访问用户数据的程序安全可信，没有被植入恶意代码。

作为机密计算理念的提出和推广者，英特尔公司自 2015 年起就将这一技术作为解决云端数据安全性的关键钥匙，开始投入大量资源进行研究和实践。如今，英特尔^® 至强^® 处理器为机密计算提供了多层次的支持能力。首先是 MKTME——多密钥内存加解密引擎，在数据写入内存时进行实时加密，实现用户数据在内存中的机密性保护，避免了多租户云环境中数据泄露的风险。接下来是 SGX 技术，在内存密态隔离的基础上，提供能够承载用户应用的可信执行环境。第三是 TDX 技术，基于虚拟化扩展了机密计算。TDX 提供的可信执行环境可承载一个完整的虚拟化实例——机密虚拟机。机密虚拟机能够实现用户业务从传统计算模式向机密计算模式的直接迁移，过程中不需要修改用户的应用，可以大大降低应用的迁移成本。

SGX：基于至强^®处理器的可信执行环境

SGX（Software Guard Extensions）是英特尔^® 处理器架构上的一组扩展指令集，其旨在为所有特权软件（内核、管理程序等）都可能存在恶意行为的计算机上执行的安全敏感计算程序提供完整性和机密性保证。基于 SGX，开发者可以将敏感信息的处理划分到 Enclave 区域，在此区域内运行的程序会受到 CPU 硬件保护。用户还可以使用远程证实（Remote Attestation）确认平台的安全性，并确保交互对象是预期的程序。

在 SGX 的保护下，用户不需要担忧敏感数据被外部应用、系统管理员甚至云厂商自身窃取，即使云端 OS 整体已经暴露在威胁下，Enclave 内的数据依旧可以保障安全。

虽然 SGX 提供了目前已知的最高安全保护水平，但它要求用户具备一定的开发和修改应用程序的能力，需要重新对已有的程序进行二次开发，以满足 SGX 的开发模型，其门槛相对较高。对此，英特尔又在至强^® 处理器上引入了 TDX 扩展指令集，以较低的门槛完全杜绝了云服务厂商与恶意行为方看到敏感数据的可能性，为用户提供了更加易用和安全的数据保护模型。

TDX：承载完整虚拟化实例的 TEE

TDX 提供了一个能够运行完整虚拟化实例的可信执行环境，也称作机密虚拟机。

上图是 TDX 的微架构示意。首先，TDX 机密虚拟机数据通过 MKTME 在内存中实现机密性保护。为了防止篡改或是重放攻击，MKTME 还提供了基于密码学的完整性保护。

在虚拟机中，数据的内存保护是最关键的基本组件。在 TDX 环境中，一旦恶意程序试图写入加密内存，就会破坏密码学签名，导致读取时无法通过签名验证，对应的数据就会被标记为损坏，从而可以终止整个 TD。

TDX 机密虚拟机是如何构建信任链条的？首先，可信计算环境的构建需要一个 TCB（可信计算基础），也是整个机密虚拟机的信任基础，从安全角度越小越好，从而控制攻击面。TDX 的 TCB 严格控制在处理器层面，包含了处理器层面的基础硬件单元和一些必须的固件库。这样一来，系统 BIOS、操作系统虚拟机控制器都可以排除出机密虚拟机构建的信任链，大大降低了机密虚拟机在构建过程中的安全风险以及构建成本。

远程证实是用户的可信执行环境启动后进行可信验证的关键环节。TDX 提供了较灵活的远程证实能力，既可以支持机密虚拟机启动过程的验证，也可以根据需要提供运行阶段的验证。

TDX 的远程证实构建包含两个环节。在平台的分发和启动阶段，英特尔为每颗出厂的处理器签发一个 PCK 证书，作为远程证实的最终根证书，云厂商可以通过英特尔的 PCS 服务将需要的设备根证书缓存到本地，构建自己的远程证实服务。接下来，用户的机密虚拟机启动时会向位于 TCB 中的 TDXmodule 请求生成一组度量报告，包含平台 TCB 的度量信息与机密虚拟机中加载的用户实例的度量信息组。度量报告传输到本地由英特尔发布的安全实例 QE 进行检查，通过之后用根证书签名，送回用户的服务网络，由用户服务网络和云厂商搭建的远程证实中继服务来协同验证，经过验证之后用户才能驱动机密虚拟机的实例进行后续计算。

对于机密虚拟机实例数据的隔离，用户的数据、业务逻辑、操作系统内核都在机密虚拟机中运行。TDX 通过 MKTME 为每个机密虚拟机分发一个外界无法访问的私有密钥，当用户的私有数据写入内存时进行实时加密。

传统虚拟化技术中，虚拟化实例的状态信息对虚拟机控制器（HyperVisor）是不设隔离的，存在安全隐患。TDX 对用户实例的状态信息用为机密实例颁发的私有密钥进行加密，并结合 TDX Module（位于 TDX 的 TCB 内）提供的访问 API，实现对虚拟机控制器的强隔离。TDX 引入了一个新的 SEAM（安全仲裁）模式，该模式下 TDX Module 是真正的 HyperVisor。TDX Module 运行在 VMX Root 模式下，只能运行在 SEAMRR 寄存器规定的区域内，区域外的软硬件读写均被拒绝。它相当于数据的安全守门员，负责拦截所有有害的外部调用，且不需要开发人员重写程序代码。

TDX Module 会向 VMM 提供安全嵌套的页表的管理借口，在机密 VM 中的内存访问、页表操作、模式转换等安全要点都能得到 TDX Module 的保护。TDX 还提供了安全中断传递能力，VMM 无法直接注入中断，只能通过 Posted Interrupt 机制注入特定类型中断，保证 CPU 多核交互符合程序预期，导致系统状态不一致。

很多场景需要与外界的 IO 设备进行数据交互。TDX 提供了较为弹性的 IO 访问模型，一种基于共享密钥内存，可以与传统 IO 设备最大化兼容；另外一种是未来的 TDX Connect 技术，可以与外部 IO 设备实现可信的直接内存交互访问。传统 PCIE 设备的硬件链路层一般不支持加密传输。而 TDX 构建的机密虚拟机可以为对应的设备 TEE 创建一个软件端点，与某个设备 TEE 绑定，并协商一个密钥来实现异构 TEE 之间的数据共享、通讯，但这样会带来一定开销。而基于 TDX Connect 的访问模型可以在机密虚拟机和设备 TEE 之间构建一个可信的直接内存访问通道，实现 DMA 和 MMIO 的双向直接访问，消除了共享密钥内存模型的额外开销，有效提升异构 TEE 之间的数据交互效率。

机密计算如何实现场景落地？从阿里云的经验谈起

阿里云是最早在自身云服务中应用机密计算技术，提升服务安全等级的云厂商之一。阿里云基于可信计算的信任链概念，从应急安全芯片逐级地将信任链传递到虚拟可信与虚拟安全芯片中，再传递到用户的虚拟机中，以保障用户自身的文件、Bootloader 和 OS 的安全。

针对大模型用户最关心的数据隔离与隐私保护问题，阿里云将英特尔的 SGX 技术用于大模型推理服务，确保用户获得安全可信的使用环境。

通过这样的模型保护流程，模型的外部使用者就无法看到大模型的整体数据、实际参数，同时他们与模型的交互也对外不可见。在不可信环境下，外部访问者只能获得加密的数据。

在实践场景中，这样的保护机制能够赋予用户极高的信任度，使他们能够放心地使用基于大模型的各类服务。例如，当病人向医疗大模型询问病情相关的诊疗意见时，病人在交互中告知大模型的隐私病历信息会受到 SGX、TDX 技术的保护，病人无需担心他人得知自己的病情；企业员工向大模型上传会议速记，希望大模型输出纪要总结时，这些会议信息也不会被云服务商或是企业竞争对手等第三方知晓。前文提到的三星数据泄露事件中，如果 ChatGPT 所在的服务器部署了机密计算能力，三星公司就不需要限制员工向 ChatGPT 询问代码意见的行为。类似地，其他 AI 代码助手也能够在更广泛、更接近企业内部关键研发流程的场景中得到应用，更好地提升企业开发效率。

总体而言，考虑到大模型的应用场景天然就需要用户向云端传输大量敏感数据，云厂商在提供大模型服务时几乎必须通过机密计算能力来保障用户的隐私和数据安全性。可以说，机密计算是大模型时代的数据安全基础，也是大模型在各行各业全面普及应用的前置条件。

构筑机密计算生态，为大模型普及保驾护航

随着大模型技术热潮来袭，机密计算也即将迎来市场爆发。据第三方调研机构 Everest Group 估计，机密计算的市场规模将在五年内增长 26 倍之多。

除了在云端保护数据安全性，机密计算的应用范围实际还包括了边缘计算和终端设备等场景。例如，物联网的末端传感器同样需要机密计算技术，确保传感器收集到的信息不被恶意第三方获取。如前文所述，英特尔开发的 TDX Connect 可用于云端与终端设备之间的机密数据传输，构建一个从终端 TEE 到云端 TEE 的安全高效传输通道，以较低的计算和通信开销确保敏感数据的全生命周期安全性。

机密计算在边缘、终端等场景的应用，也将为大模型的实践开启更多可能性。例如，运行在终端本地的推理模型可以为用户提供更加迅捷的交互响应，为无人车辆、智能家居操控、实时翻译等应用带来更好的智能能力。而这些终端模型又可以通过全生命周期的机密计算通道，利用云端算力来改善输出，增强用户体验。

可以预见的是，机密计算的发展需要全行业的共同努力，芯片厂商、云厂商、软件服务商应当通力协作，为机密计算构筑良性发展的生态环境，在软件侧充分发挥底层硬件的能力，确保数据生命周期中每一个阶段都具备高度安全性。同时，行业也需要加强宣传，让更多企业用户和终端消费者了解机密计算的概念，使他们能够从根本上解除对云计算的不信任感。这样一来，行业就能建立云计算，尤其是云端大模型服务的广泛信任框架，解决大模型实践中遭遇的信任挑战，为大模型的全面推广打下坚实基础。我们相信，随着机密计算逐渐成为云服务的标配技术，大模型终将在各行业广泛流行，成为经济发展与数字化转型的关键动力。

创作场景

AI 大模型热潮来袭，看机密计算如何应对敏感数据安全挑战

大模型时代的云端数据安全困境

机密计算，解决云端数据隔离难题的创新路径

从 SGX 到 TDX，英特尔机密计算技术概览

SGX：基于至强^®处理器的可信执行环境

TDX：承载完整虚拟化实例的 TEE

机密计算如何实现场景落地？从阿里云的经验谈起

构筑机密计算生态，为大模型普及保驾护航

创作场景

AI 大模型热潮来袭，看机密计算如何应对敏感数据安全挑战

大模型时代的云端数据安全困境

机密计算，解决云端数据隔离难题的创新路径

从 SGX 到 TDX，英特尔机密计算技术概览

SGX：基于至强® 处理器的可信执行环境

TDX：承载完整虚拟化实例的 TEE

机密计算如何实现场景落地？从阿里云的经验谈起

构筑机密计算生态，为大模型普及保驾护航

SGX：基于至强^®处理器的可信执行环境