写点什么

“芯片 -OS”协同新路径:Arm 与 OpenCloudOS 携手,Infra 智能基座如何重塑算力生态?

  • 2025-12-17
    北京
  • 本文字数:2958 字

    阅读完需:约 10 分钟

大小:1.46M时长:08:29
“芯片-OS”协同新路径:Arm与OpenCloudOS携手,Infra智能基座如何重塑算力生态?

进入 2025 年以来,AI 的普及速度、应用形态以及对成熟产业的融入和改造,带来了 AI 算力需求的爆发式发展。但客观地看,AI 要成长为匹敌互联网、移动互联网的“时代级”驱动力,必须依靠更加开源开放的生态,突破科技公司的“线性”发展模式,实现更高效率的裂变。

 

然而,算力需求的指数级增长必然会遇到一个瓶颈——底层硬件与上层框架的“碎片化”,这会让所有开发者陷入适配的泥潭。为此,InfoQ 对 Arm 云 AI 事业部工程高级总监 Robert Williamson 进行了线上专访,Arm 也在 2025 OpenCloudOS 操作系统生态大会(简称 OC 大会)期间,围绕 Arm 在开放生态中的创新实践做了分享。这篇文章,希望能够从 OS 和芯片的视角,为读者呈现出“用生态回答生态”的协同新路径。

核心破局:用 Infra 智能基座回应“适配之痛”

 

2025 年的 OC 大会进一步聚焦 AI——这贯穿在大会的主题和每一位分享嘉宾的观点中。期间发布的 Infra 智能基座,正是对这一主题的直接回应。大会披露,当前大模型部署已进入规模化深水区,但“百家争鸣”的(包括国外的和国内的)硬件与框架(vLLM、SGLang 等),让开发者需耗费 60% 以上精力处理底层适配。有开发者曾经反馈,部署一个 AI 框架要走数十步流程。

 

Infra 智能基座的解法颇具针对性:南向通过统一接口纳管多架异构硬件,完成主流 AI 芯片驱动的深度集成,用户只需一键就可以部署底层依赖;北向聚合 PyTorch、vLLM、OpenVINO 等数十款全球主流 AI 框架,封装成容器镜像将部署时间从“天级”压至“分钟级”;同时与腾讯云 HAI 平台联动,提供开箱即用的 AI-ready 云服务器。

 

正如 OpenCloudOS 社区 TOC 主席王佳所强调的,“通过 OS 层的极致提效,让开发者回归算法创新本身。“

 

这一思路恰与 Robert Williamson 专访中的观点形成呼应。他表示:“传统 OS 是为通用计算场景设计的,而面对大模型的分布式张量计算,开源操作系统必须演进为软硬件高效协同的 AI 分布式计算基座。”Robert 强调,适配大模型的 OS 需具备三大核心能力:加速器优先的内核架构、安全隔离的 GPU 资源管理、针对数据流优化的协议栈——而 Infra 智能基座的 “南向纳管+北向聚合”,正是这三大能力的产业落地。他以 Arm 的 SMMUv3 技术为例,“这项支持 CPU 与加速器共享虚拟内存的技术,与 OpenCloudOS 的硬件统一管理逻辑相通,都是为了打破硬件壁垒,让算力高效流动。”

 

运行于 Arm 平台的 Linux 系统正在面向 AI 加速迭代


  • 内核层的核心技术夯实底层技术基础,为 AI 负载的高效运行提供底层支撑。

  • 实现调度机制与架构优化,进一步推动技术转型进程。

  • 稳步推进数据流与网络协议栈的技术迭代,为大语言模型运行所需的高带宽数据处理链路提供了有力支撑。

  • 针对 AI 场景提供安全防护、代码缺陷检测、工作负载管控能力。

  • 针对机器学习场景启动内核层早期开发

生态协同实证:“芯片 - OS” 实践如何落地?

 

众多开源生态社区和生态链企业、开发者共同构成的不是“树状”的生态,而是更加繁荣的“丛林”型生态,这种生态不仅涵盖云端的协同联动,也囊括了端侧的深度合作,端云协同已经成为 AI 及大语言模型工业化应用、规模化普及的关键路径。其中,Arm 为代表的芯片厂商尤为关键。

 

在“芯片 - OS” 实践方面,Arm 签署了贡献者协议 (CLA) 并投入工程资源加入社区和专项工作组,与社区紧密合作,进行底层技术适配和性能优化,实现 Arm Neoverse 平台特性与各操作系统的集成。同时,Arm KleidiAI 软件库,为 Arm CPU 上运行的 AI 推理工作负载提供软件性能优化。



图注: Arm 云 AI 事业部工程高级总监 Robert Williamson

 

Robert 提到,Arm 与腾讯合作,将 KleidiAI 优化库集成到腾讯 Angel 框架后,混元大模型的预填充速度提升了 100%,解码器速度提升了 10%。他解释道,KleidiAI 已集成到 PyTorch、llama.cpp 等框架,开发者无需额外操作,就能自动获得 Arm 架构的性能提升。

 

“大厂”对“大厂”的合作,必然更为直接高效,就像丛林中的参天巨树。但我们也希望这些合作能够通过开源开放的操作系统,进一步形成土壤、空气和雨水这些“基础设施”如何能够普惠到所有生态企业、所有开发者。


在 Arm 的视角中,开源生态也是其兑现商业价值不可或缺的一部分。据介绍,30 年来,Arm 坚持软件生态投入,目前有 2200 万开发者在 Arm 的平台上展开创新开发工作,全球超过 1000 家开源软件及独立软件供应商支持 Arm 平台构建。

 

而 OpenCloudOS 作为国内三大服务器操作系统根社区之一,也是目前中国最大的开源 OS 社区,一方面实现了硬件兼容覆盖广度的领先,大幅降低开源生态硬件接入门槛;另一方面也与 Arm、腾讯云等伙伴建立起从芯片到 OS 的协同机制,确保开源系统“单一镜像稳定运行于多架构硬件”。截至 2025 年,社群已汇聚 1200 余家生态伙伴、400 余家深度合作伙伴及 18 万名开发者,装机量突破 2000 万节点,服务超 6.2 万家企业,覆盖政务、AI、交通等关键领域,成为开源操作系统生态的“核心枢纽”。

OS 进化下一站,能效、安全?

 

面对 AI 以天为单位的进化速度,AI Infra 和 OS 需要在底层重塑,现场嘉宾聚焦在“能效”和“安全”两个维度,认为需要从“底层支撑” 升级为 “智能中枢”,既做好先进技术与工程的“放大器”,也要变成效率的“纳管中心”和安全的“守门员”。

 

AI 在为人们带来便利的同时,也产生了惊人的能源消耗:为了满足全球 40 亿次/天的的 AI 请求,2025 年新增算力就达到了 16zettaFLOPS。到 2030 年,全球数据中心耗电量将达 160 吉瓦,相当于全美住宅总用电量。参会嘉宾现场分享的这组数据,直指 AI 基建的 “能效痛点”。

 

而在开源 OS 社区的视角,通过软件层面的极致优化,能够压缩全链路成本,从“提效”的角度实现“降本”。例如,通过精简框架部署流程,OpenCloudOS 将部署时间从天/小时级缩短到分钟级,容器镜像体积缩减 94%,大幅降低存储传输开销与镜像拉取能耗。自研 FlexKV 分布式 KVCache 管理系统,通过多级缓存(内存、SSD、云端存储)解决大模型推理的显存瓶颈,在高并发场景下首 Token 延迟降低 70%,减少因等待产生的无效算力消耗;同时优化 NVMe 存储吞吐量、网络接口控制器卸载等数据流链路,为高带宽 AI 负载提供高效支撑,避免数据传输卡顿导致的算力空转。

 

而在安全层面,企业的核心数据、模型资产会进一步云化、网络化,尤其依赖 OS 这一层统一的“安全屏障”。Robert 介绍,在云上多租户环境中,基于 Arm CCA(机密计算架构)的安全计算技术与 OpenCloudOS 等开源操作系统协同,能够为最终用户提供高度隔离的可信执行环境,有效保障用户代码和数据在使用过程中的机密性与完整性。


OpenCloudOS 也在通过自身的 AI 化,为用户提供更安全的底层服务。例如本次在大会上推出的 PkgAgent 智能体系统,通过 AI 多智能体协同技术实现软件包管理的自动化革新,可将单个软件包处理时间从平均 2.5 小时缩短至分钟级,将漏洞修复的闭环效率提升了 91.3%,显著增强了系统安全性与迭代敏捷性。

 

在这次从芯片到 OS 的交流中,虽然每位嘉宾分享了各自领域的不同技术观点,但方向上是共识的。AI 基建必须从粗放的算力堆砌,迈向更加精细化的产业协同。就如 OpenCloudOS 社区技术监督委员会(TOC)主席王佳强调,OpenCloudOS 的发展目标,是成为 AI Infra 生态中的“最大公约数”。唯有 18 万开发者、62000 余家企业、1200 余家生态伙伴合力,才能筑牢 AI 时代的基础软件底座。

 

采访嘉宾:

Robert Williamson,Arm 云 AI 事业部工程高级总监

2025-12-17 10:548
用户头像
李冬梅 加V:busulishang4668

发布了 1235 篇内容, 共 851.5 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论

LiteOS:剖析时间管理模块源代码

华为云开发者联盟

时间管理 时间 LiteOS huawei 任务

【LeetCode】位1的个数Java题解

Albert

算法 LeetCode 3月日更

开发也要防“沉迷”?IDEA插件教程详解

京东科技开发者

Java 开发 IntelliJ IDEA

【IstioCon 2021】最佳实践:从Spring Cloud 到 Istio

华为云原生团队

开源 Kubernetes 云原生 istio 服务网格

力扣(LeetCode)刷题,简单题(第16期)

不脱发的程序猿

面试 LeetCode 28天写作 算法面经 3月日更

基于感染原理判断图的连通性算法

大奎

图算法 子图 连通性

跟随报文,开启一段奇妙之旅

华为云开发者联盟

报文 Windows主机 路由器 Linux主机 路由表

书单|互联网企业面试案头书之架构师篇

博文视点Broadview

架构

数据库周刊62丨央企2021年数据库成交公告,国产占90%;流数据库HStreamDB开源;MySQL主从双写导致数据丢失;Oracle 19c升级最佳实践;PG日常工作分享;MySQL MGR运维指南;SQL语法手册……

墨天轮

MySQL 数据库 sql postgre

java好还是嵌入式好?做IT开发该如何选择

cdhqyj

Java 编程 发展 开发 嵌入式

Swagger增强神器:Knife4j!用它轻松实现接口搜索、Word下载、接口过滤...

王磊

Java swagger Knife4j

vivo 应用商店推荐系统探索与实践

vivo互联网技术

架构 推荐系统 服务器

一文了解数据库资源管理技术

华为云开发者联盟

数据库 存储 GaussDB(DWS) 资源管理

对于移动开发,人工智能的到来意味着什么?

故胤道长

人工智能 机器学习 ios开发 Android开发

力扣(LeetCode)刷题,简单题(第15期)

不脱发的程序猿

LeetCode 编程之路 28天写作 算法面经 3月日更

基于NA公链(Nirvana)的应用和NAC公链社区共识探究公链的发展未来

区块链第一资讯

Flink SQL 在网易云音乐的产品化实践

Apache Flink

flink

Cobar SQL审计的设计与实现

捉虫大师

Disruptor Skywalking cobar 数据库中间件

揭秘盒马鲜生,如何打破收益增长天花板!

博文视点Broadview

微信聊天记录里的文件又失效了?试试这个文件同步开源项目吧

HelloGitHub

开源 文件传输 Go 语言

分布式任务 + 消息队列框架 go-queue

万俊峰Kevin

微服务 分布式任务 消息队列 Go 语言

彩色图像的二值化,取经之旅第 6 天

梦想橡皮擦

28天写作 3月日更

字节跳动单点恢复功能及 Regional CheckPoint 优化实践

Apache Flink

flink

【Doris Weekly】2020.03.08~2021.03.21

ApacheDoris

【Doris Weekly】

终于有阿里高工把SpringBoot+SpringCloud+Docker+MQ整合在一起了

Java架构追梦

Java 架构 微服务 springboot SpringCloud

uni-app跨端开发H5、小程序、IOS、Android(六):uni-app事件绑定

程序员潘Sir

微信小程序 uni-app 大前端 iOS Developer 3月日更

ThreadLocal 慌不慌?

叫练

JVM ThreadLocal 引用 软引用

墨天轮精选:数据库问答集萃第一期-2021

墨天轮

MySQL 数据库 sql dba

精选2021互联网大厂Java核心面试题库(金三银四面试必备)

比伯

Java 编程 架构 面试 程序人生

技术实践丨Prometheus+Grafana搭建HBase监控仪表盘

华为云开发者联盟

开源 Grafana Prometheus HBase 开源数据库

EGG公链强势来袭!去中心化社交革命先驱EFTalk

币圈那点事

“芯片-OS”协同新路径:Arm与OpenCloudOS携手,Infra智能基座如何重塑算力生态?_芯片&算力_李冬梅_InfoQ精选文章