“芯片-OS”协同新路径：Arm与OpenCloudOS携手，Infra智能基座如何重塑算力生态？

进入 2025 年以来，AI 的普及速度、应用形态以及对成熟产业的融入和改造，带来了 AI 算力需求的爆发式发展。但客观地看，AI 要成长为匹敌互联网、移动互联网的“时代级”驱动力，必须依靠更加开源开放的生态，突破科技公司的“线性”发展模式，实现更高效率的裂变。

然而，算力需求的指数级增长必然会遇到一个瓶颈——底层硬件与上层框架的“碎片化”，这会让所有开发者陷入适配的泥潭。为此，InfoQ 对 Arm 云 AI 事业部工程高级总监 Robert Williamson 进行了线上专访，Arm 也在 2025 OpenCloudOS 操作系统生态大会（简称 OC 大会）期间，围绕 Arm 在开放生态中的创新实践做了分享。这篇文章，希望能够从 OS 和芯片的视角，为读者呈现出“用生态回答生态”的协同新路径。

核心破局：用 Infra 智能基座回应“适配之痛”

2025 年的 OC 大会进一步聚焦 AI——这贯穿在大会的主题和每一位分享嘉宾的观点中。期间发布的 Infra 智能基座，正是对这一主题的直接回应。大会披露，当前大模型部署已进入规模化深水区，但“百家争鸣”的（包括国外的和国内的）硬件与框架（vLLM、SGLang 等），让开发者需耗费 60% 以上精力处理底层适配。有开发者曾经反馈，部署一个 AI 框架要走数十步流程。

Infra 智能基座的解法颇具针对性：南向通过统一接口纳管多架异构硬件，完成主流 AI 芯片驱动的深度集成，用户只需一键就可以部署底层依赖；北向聚合 PyTorch、vLLM、OpenVINO 等数十款全球主流 AI 框架，封装成容器镜像将部署时间从“天级”压至“分钟级”；同时与腾讯云 HAI 平台联动，提供开箱即用的 AI-ready 云服务器。

正如 OpenCloudOS 社区 TOC 主席王佳所强调的，“通过 OS 层的极致提效，让开发者回归算法创新本身。“

这一思路恰与 Robert Williamson 专访中的观点形成呼应。他表示：“传统 OS 是为通用计算场景设计的，而面对大模型的分布式张量计算，开源操作系统必须演进为软硬件高效协同的 AI 分布式计算基座。”Robert 强调，适配大模型的 OS 需具备三大核心能力：加速器优先的内核架构、安全隔离的 GPU 资源管理、针对数据流优化的协议栈——而 Infra 智能基座的 “南向纳管+北向聚合”，正是这三大能力的产业落地。他以 Arm 的 SMMUv3 技术为例，“这项支持 CPU 与加速器共享虚拟内存的技术，与 OpenCloudOS 的硬件统一管理逻辑相通，都是为了打破硬件壁垒，让算力高效流动。”

运行于 Arm 平台的 Linux 系统正在面向 AI 加速迭代

内核层的核心技术夯实底层技术基础，为 AI 负载的高效运行提供底层支撑。
实现调度机制与架构优化，进一步推动技术转型进程。
稳步推进数据流与网络协议栈的技术迭代，为大语言模型运行所需的高带宽数据处理链路提供了有力支撑。
针对 AI 场景提供安全防护、代码缺陷检测、工作负载管控能力。
针对机器学习场景启动内核层早期开发

生态协同实证：“芯片 - OS” 实践如何落地？

众多开源生态社区和生态链企业、开发者共同构成的不是“树状”的生态，而是更加繁荣的“丛林”型生态，这种生态不仅涵盖云端的协同联动，也囊括了端侧的深度合作，端云协同已经成为 AI 及大语言模型工业化应用、规模化普及的关键路径。其中，Arm 为代表的芯片厂商尤为关键。

在“芯片 - OS” 实践方面，Arm 签署了贡献者协议 (CLA) 并投入工程资源加入社区和专项工作组，与社区紧密合作，进行底层技术适配和性能优化，实现 Arm Neoverse 平台特性与各操作系统的集成。同时，Arm KleidiAI 软件库，为 Arm CPU 上运行的 AI 推理工作负载提供软件性能优化。

图注： Arm 云 AI 事业部工程高级总监 Robert Williamson

Robert 提到，Arm 与腾讯合作，将 KleidiAI 优化库集成到腾讯 Angel 框架后，混元大模型的预填充速度提升了 100%，解码器速度提升了 10%。他解释道，KleidiAI 已集成到 PyTorch、llama.cpp 等框架，开发者无需额外操作，就能自动获得 Arm 架构的性能提升。

“大厂”对“大厂”的合作，必然更为直接高效，就像丛林中的参天巨树。但我们也希望这些合作能够通过开源开放的操作系统，进一步形成土壤、空气和雨水这些“基础设施”如何能够普惠到所有生态企业、所有开发者。

在 Arm 的视角中，开源生态也是其兑现商业价值不可或缺的一部分。据介绍，30 年来，Arm 坚持软件生态投入，目前有 2200 万开发者在 Arm 的平台上展开创新开发工作，全球超过 1000 家开源软件及独立软件供应商支持 Arm 平台构建。

而 OpenCloudOS 作为国内三大服务器操作系统根社区之一，也是目前中国最大的开源 OS 社区，一方面实现了硬件兼容覆盖广度的领先，大幅降低开源生态硬件接入门槛；另一方面也与 Arm、腾讯云等伙伴建立起从芯片到 OS 的协同机制，确保开源系统“单一镜像稳定运行于多架构硬件”。截至 2025 年，社群已汇聚 1200 余家生态伙伴、400 余家深度合作伙伴及 18 万名开发者，装机量突破 2000 万节点，服务超 6.2 万家企业，覆盖政务、AI、交通等关键领域，成为开源操作系统生态的“核心枢纽”。

OS 进化下一站，能效、安全？

面对 AI 以天为单位的进化速度，AI Infra 和 OS 需要在底层重塑，现场嘉宾聚焦在“能效”和“安全”两个维度，认为需要从“底层支撑” 升级为 “智能中枢”，既做好先进技术与工程的“放大器”，也要变成效率的“纳管中心”和安全的“守门员”。

AI 在为人们带来便利的同时，也产生了惊人的能源消耗：为了满足全球 40 亿次/天的的 AI 请求，2025 年新增算力就达到了 16zettaFLOPS。到 2030 年，全球数据中心耗电量将达 160 吉瓦，相当于全美住宅总用电量。参会嘉宾现场分享的这组数据，直指 AI 基建的 “能效痛点”。

而在开源 OS 社区的视角，通过软件层面的极致优化，能够压缩全链路成本，从“提效”的角度实现“降本”。例如，通过精简框架部署流程，OpenCloudOS 将部署时间从天/小时级缩短到分钟级，容器镜像体积缩减 94%，大幅降低存储传输开销与镜像拉取能耗。自研 FlexKV 分布式 KVCache 管理系统，通过多级缓存（内存、SSD、云端存储）解决大模型推理的显存瓶颈，在高并发场景下首 Token 延迟降低 70%，减少因等待产生的无效算力消耗；同时优化 NVMe 存储吞吐量、网络接口控制器卸载等数据流链路，为高带宽 AI 负载提供高效支撑，避免数据传输卡顿导致的算力空转。

而在安全层面，企业的核心数据、模型资产会进一步云化、网络化，尤其依赖 OS 这一层统一的“安全屏障”。Robert 介绍，在云上多租户环境中，基于 Arm CCA（机密计算架构）的安全计算技术与 OpenCloudOS 等开源操作系统协同，能够为最终用户提供高度隔离的可信执行环境，有效保障用户代码和数据在使用过程中的机密性与完整性。

OpenCloudOS 也在通过自身的 AI 化，为用户提供更安全的底层服务。例如本次在大会上推出的 PkgAgent 智能体系统，通过 AI 多智能体协同技术实现软件包管理的自动化革新，可将单个软件包处理时间从平均 2.5 小时缩短至分钟级，将漏洞修复的闭环效率提升了 91.3%，显著增强了系统安全性与迭代敏捷性。

在这次从芯片到 OS 的交流中，虽然每位嘉宾分享了各自领域的不同技术观点，但方向上是共识的。AI 基建必须从粗放的算力堆砌，迈向更加精细化的产业协同。就如 OpenCloudOS 社区技术监督委员会(TOC)主席王佳强调，OpenCloudOS 的发展目标，是成为 AI Infra 生态中的“最大公约数”。唯有 18 万开发者、62000 余家企业、1200 余家生态伙伴合力，才能筑牢 AI 时代的基础软件底座。

采访嘉宾：

Robert Williamson，Arm 云 AI 事业部工程高级总监

创作场景

“芯片 -OS”协同新路径：Arm 与 OpenCloudOS 携手，Infra 智能基座如何重塑算力生态？

核心破局：用 Infra 智能基座回应“适配之痛”

生态协同实证：“芯片 - OS” 实践如何落地？

OS 进化下一站，能效、安全？