写点什么

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

  • 2025-08-13
    北京
  • 本文字数:5579 字

    阅读完需:约 18 分钟

大小:2.72M时长:15:52
AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

当前,AI 浪潮正以前所未有的力量重塑产业格局,国产化替代的加速推进,也让基础设施领域的技术创新成为了焦点。服务器操作系统作为算力底座的核心,正在经历着从 “适配” 到 “AI 原生驱动” 的关键变革。


由阿里云联合 InfoQ 打造的《AI 进化论:智算时代操作系统的破局之路》栏目首期,邀请北京大学计算机学院教授、副院长,中国计算机学会开源发展委员会副主任 周明辉,阿里云智能集团研发副总裁、龙蜥社区理事长马涛,围绕 AI 对操作系统的影响、技术演进、安全挑战、国产化机遇及生态构建等核心命题展开深度对话,解构智算时代操作系统的破局逻辑与实践路径。



以下为经编辑整理后的内容精粹。


01_AI 时代操作系统的重构与考验


操作系统的本质,始终是 “向下管理硬件资源,向上为用户和应用提供开发与运行保障”。周明辉教授在直播中强调,这一核心定位从未改变,但随着应用场景与硬件资源的迭代,其承载的功能与面临的挑战已发生根本性变化。从早期物理服务器时代的硬件资源管理,到云计算时代的虚拟化与多租户隔离,每一次技术革命都推动着操作系统的能力边界不断拓展。而 AI 时代的到来,尤其是大语言模型的训练与推理场景,正给这一经典系统带来前所未有的冲击。


“大语言模型的训练和推理,其核心特点是计算密集、数据量大、参数众多,这使得算力、存储、数据、模型必须实现一体化协同管理。” 周明辉指出,这种协同需求对传统的资源管理模式构成了 “革命性挑战”—— 传统操作系统的进程调度、内存分配、文件管理逻辑,已难以满足 AI 场景下的高效协同要求。


马涛结合近 20 年的产业实践,进一步拆解了 AI 场景的具体挑战。他以 GPU 为例:“现在一台 GPU 一体机成本高达几百万,让它高效运行 10 分钟,操作系统需要做好大量底层工作。” 在训练场景中,数据量的爆发式增长要求操作系统重新设计存储策略 ——AI 训练的中间数据多存储于对象存储或高性能文件存储中,如何将数据高效搬运至 GPU 显存、如何在显存不足时实现与内存的动态置换,都成为全新课题。而在推理场景中,多步骤计算对 CPU、GPU、存储、网络的差异化需求,更要求操作系统具备动态适配能力。


这种变化的背后,是计算核心的迁移。“过去数据中心以 CPU 为核心,调度算法围绕 CPU 设计;现在则转向以 GPU 为核心,CPU 更像‘保姆’—— 需要提前完成数据处理、内存准备等工作,让 GPU 专注于计算。” 马涛解释道,这种转变不仅涉及计算逻辑的重构,更引发了网络栈的连锁变革:在多机多卡协同场景下,数据如何跨设备高效传输、如何诊断机器间的故障、如何优化 shuffle 与 reduce 等操作,都需要操作系统在网络层进行深度革新。阿里云的 HPN7.0 技术在 SIGCOMM 上获得 best paper,正是这种优化的典型成果。


从实践来看,AI 驱动的变革已体现在操作系统的每一个细节中。马涛透露:“我们在阿里云通过持续优化计算、存储、网络等模块,将改进逐步开源到社区。每个小优化叠加后,操作系统会慢慢变得‘不一样’—— 比如针对 GPU 的调度算法、针对大模型的内存管理策略,这些积累最终会形成适配 AI 场景的新系统。”


据介绍,最新发布的阿里云服务器操作系统 4.0,便是上述优化的集大成者,它深度整合了 AI 训练与推理场景的底层能力,比如针对 GPU 显存与内存的智能置换算法、多机多卡协同的低延迟网络调度等,都是从千万级 AI 任务中沉淀出的技术结晶。


02_技术演进与安全攻坚:在改良与突破中寻找平衡


面对 AI 带来的挑战,操作系统的演进呈现出两条清晰路径。周明辉将其概括为 “改良与革命并存”:一条是基于传统架构进行 AI 适配优化,另一条是重构全新架构,让 AI 成为操作系统的核心。


“传统操作系统的架构已发展数十年,承载了无数应用,面向 AI 做改进是必须走的路,但这条道路充满挑战。” 周明辉坦言,传统技术路线的复杂性使得满足 AI 场景的大数据量、高计算密度、快存储响应等需求极为困难。以内存管理为例,大模型的参数规模动辄数十亿甚至上百亿,传统的分页机制与缓存策略已难以应对,必须重新设计内存分配与回收逻辑。


马涛从产业视角印证了这一判断:“工业界目前更侧重第一条路径,因为要兼顾现有用户的 legacy 系统与业务连续性。” 他以阿里云为例,操作系统团队通过 “小步快跑” 的方式持续迭代 —— 针对 AI 训练场景优化存储 I/O、针对推理场景优化任务调度、针对多卡协同优化网络传输,这些改进并非颠覆性创新,但积累到一定程度后,系统会呈现出全新的适配能力。“我们把这些工作开源到社区,一方面接受社区验证,另一方面也能汇聚更多开发者的智慧,从量变积累到质变。阿里云服务器操作系统 4.0 版本就是这种迭代模式的阶段性成果:它既兼容传统业务的运行需求,又能通过‘AI 加速引擎’模块为大模型训练提供专属优化,实现了‘legacy 系统平稳过渡’与‘AI 场景高效支撑’的双重目标。”


对于第二条路径,即 “AI 即操作系统” 的架构革新,两位嘉宾均认为其是未来方向,但需长期探索。“传统操作系统模型确实不适合 AI 场景,未来可能基于 GPU 核心重构体系,甚至用 Rust 语言重写内核。” 马涛指出,企业当下难以全身心投入,因为要平衡客户需求与技术革新 —— 这也是新型创业公司的机会所在,“它们没有历史包袱,可以轻装上阵,尝试全新架构”。周明辉补充道:“学术界也在关注这一方向,比如探索如何让大语言模型直接承担部分操作系统功能,未来用户可能‘用自然语言操作电脑’,这会彻底改变人机交互模式。”


技术演进的同时,安全与供应链风险成为不可忽视的挑战。周明辉从学术研究出发,提出两大核心解决方向:一是通过 Rust 语言重写内核解决内存安全问题,“比如北大国家实验室与蚂蚁集团合作的‘星绽操作系统内核’,利用 Rust 的内存安全特性构建‘宽内核’,在保障安全的同时兼顾性能”;二是通过形式化验证确保内核功能正确性,“形式化验证能发现传统测试无法察觉的数值溢出、条件竞争等问题,为自动驾驶、工业控制等安全攸关场景提供确定性保障”。


AI 场景的特殊性还加剧了供应链风险。周明辉强调:“软件供应链是全球命运共同体,只要互联网存在,所有参与者都无法独善其身。AI 供应链的风险更具独特性 —— 训练数据可能被投毒,海量参数中潜藏后门,从硬件芯片到 AI 框架的全链条都可能出现漏洞。” 他特别提到 XZ Utils 供应链投毒事件暴露出的社会工程学攻击,以及国内生态处于全球下游面临的 “断供风险”,“这些问题不是中国特有,而是全球性挑战,需要学界与产业界共同应对”。


针对上述安全方面的挑战,马涛从产业角度提出了 “体系化、平台化、智能化” 的应对策略。“体系化即覆盖代码拉取、编译环境、发布渠道等全环节,确保每个节点可控 —— 比如上游代码的溯源、编译机器的安全加固、发布包的签名验证。” 他解释道,“平台化是将所有信息透明化,让用户知晓软件包的来源、漏洞与升级路径,龙蜥社区已经实现了这一点,所有包的评分、更新记录、安全漏洞都公开可查。” 而智能化则是利用大模型提升安全水位,“比如让 AI 模拟攻击者进行渗透测试,或者自动分析代码中的潜在漏洞,这能大幅提升安全检测效率”。


在运行时安全方面,阿里云正在研发 “龙盾” 功能,通过全栈防护机制隔离风险。“即使攻击者突破防线,也无法获取其他用户数据,以此将安全损失降到最低。” 马涛坦言,对于大模型的数据污染风险,目前行业仍在探索,“我们在尝试通过数据标注与溯源技术提前识别风险,但无法做到零风险,只能尽力降低”。


03_国产化突围与生态共建:从 “跟跑” 到 “生态位跃升”


除了 AI 浪潮,“国产化”则是操作系统演进过程中的又一重要趋势。2020 年的 CentOS 停服事件,成为了国产服务器操作系统发展的 “转折点”。周明辉回忆:“当时全中国服务器中十之八九使用 CentOS,停服消息如同地震,这暴露了我们在全球软件生态位的低端 —— 过度依赖上游,一旦上游‘断水’,下游便陷入困境。” 但他同时强调,国产化绝非简单的 “替代”,而是 “立足全球化,向生态位高位攀升”。


“软件是全球化市场,国产化不能关起门来做。” 周明辉的观点鲜明,“我们的目标是吸引全球智力与市场,让国产操作系统不仅服务国内用户,更能进入国际市场。比如开源项目,就应该利用全球的开发者资源,解决全球性问题。”


马涛将国产化路径总结为 “脚踏实地 + 仰望星空”。他表示:“‘脚踏实地’是指通过社区的延保计划,帮助用户平稳过渡 —— 很多企业的业务系统基于 CentOS 构建,开发者可能都已离职,让他们重新适配新系统不现实。我们通过兼容接口、提供 CVE 更新,让用户能‘无痛迁移’,如同为旧桥梁铺设新的桥面,确保通行不受影响。” 而 “仰望星空” 则是积极参与国际上游生态,“在 Linux Kernel 等关键子系统中贡献代码,在 RISC-V、虚拟化等标准制定中争取话语权,如同从参与游戏到逐步制定游戏规则”。


他以龙蜥社区的实践为例:“我们联合欧拉、OpenCloudOS 达成生态协议,对 200 多个核心包(如 Kernel、GCC、GLIBC)统一版本与维护策略。这些包是操作系统的‘基石’,统一标准能减少重复劳动,让各方集中精力做差异化创新,如同大家共同建设地基,再各自加盖特色建筑。阿里云服务器操作系统 4.0 正是这一生态协同的产物,它基于龙蜥社区的技术底座,严格遵循核心包的统一标准,同时针对云与 AI 场景做了深度优化 —— 比如针对国产芯片的原生支持,能够实现‘一次适配,多平台运行’,这也是阿里云‘差异化竞争力’的具体体现。 ”


当然,核心组件的协同只是生态共建的起点,要实现真正的国产化突围,还需要构建一个多方共赢的生态系统 —— 这既是应对全球竞争的必然选择,也是技术持续迭代的核心支撑。周明辉指出:“生态的核心在于两个维度 —— 一是软件依赖网络中的生态位,即有多少下游软件、用户与市场依赖;二是社区参与度,包括开发者、企业、机构的贡献度,各方围绕价值诉求形成共生体系,如同一个热带雨林,不同物种相互依存、共同繁荣。” 他特别强调吸引年轻学子的重要性,“操作系统的未来在于年轻人,要通过开源大赛、课程合作等方式,让他们参与到社区建设中,如同培育树苗,为森林的未来储备力量”。


在这样的生态体系中,企业的参与并非单纯的 “慈善”,而是基于自身利益的理性选择,唯有形成利益共生的闭环,生态才能持续运转。马涛从产业视角补充了生态构建的关键:“技术决定生态的下限,而生态决定社区的上限。” 在他看来,健康的生态需要满足三个条件:一是开发者生态,吸引学生与爱好者 “为爱发电”——“我当年进入操作系统领域,就是因为兴趣,这种动力是持久的,如同艺术家对创作的热爱”;二是企业参与需找到利益回流点,“我们需要确保的是生态圈里的各方利益不冲突,形成 1+1>2 的效应,如同在一条产业链上,每个环节都发挥优势,共同提升整体价值”;三是清晰的定位与分工,“上游社区做好核心组件维护,中游发行版做好场景适配,下游企业提供服务与销售,形成良性链条,如同河流的上游、中游、下游各司其职,最终滋养整片土地”。


这种生态协同已初见成效。马涛透露:“龙蜥社区的包管理体系会对每个软件包打分,根据活跃度、更新频率、漏洞修复速度等指标推荐最优选择。这不仅降低了用户的使用门槛,也让上游开发者更重视包的质量 —— 形成正向循环,如同一个优质市场,买家与卖家相互促进,共同提升商品品质。”


04_未来展望:在产学研协同中定义下一代操作系统


对于下一代操作系统的形态,两位嘉宾一致认为 AI 将成为核心驱动力。周明辉预测:“传统架构的重构与全新架构的探索将长期并存。随着大语言模型能力的提升,未来可能实现‘用人话操作操作系统’—— 用户无需调用 API,只需自然语言指令,系统就能自动完成部署、调度等操作。”


马涛则从产业视角分享了阿里云服务器操作系统接下来的三大方向:一是持续优化核心组件,适配快速迭代的 AI 模型,“去年还是稠密模型,今年就变成 MOE(混合专家模型),参数规模从百亿级跃升到千亿级,操作系统必须紧跟这种变化,这也是我们在 Alinux 4.0 版本基础上规划下一代迭代的核心方向”;二是做好国产化算力的协同管理,“国内的 GPU、TPU 等异构芯片越来越多,操作系统要抽象硬件差异,让用户‘用起来一样方便’”;三是推动操作系统的智能化,“通过 AI 优化安全检测、运维调度、文件系统等模块,最终实现‘System for AI’与‘AI for System’的融合”。


产学研协同将加速这一进程。周明辉认为:“学术界可聚焦基础问题,比如新的调度算法、存储模型,通过‘小切口’突破;企业则擅长工程化落地,将学术成果转化为产品能力。” 他以形式化验证为例:“比如高校团队花数年时间攻克理论难题,然后企业则将其应用到内核开发中,只有这种协同才能真正解决问题。”


马涛补充道:“阿里与高校的合作模式有三种 —— 联合实验室聚焦长期方向,定向项目解决具体问题,开源合作吸引师生参与。比如在 AI for Security 领域,我们与高校合作训练大模型检测漏洞,既推动了学术研究,也解决了产业痛点。”


正如两位嘉宾所言,智算时代的操作系统正站在历史转折点上。无论是改良与革命并行的技术路线,还是 “立足全球化” 的国产化策略,亦或是 “价值共生” 的生态理念,其核心都是让操作系统真正成为 AI 时代的算力底座。在这条破局之路上,产学研的协同、企业的持续投入与开源生态的繁荣,将共同推动操作系统实现从 “适配 AI” 到 “原生驱动 AI” 的跨越,进而为全球智算产业发展注入中国力量。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。

2025-08-13 16:2292

评论

发布
暂无评论
发现更多内容

忘记背后,努力面前【开学季flag】

Fire_Shield

程序人生 9月月更 开学季

物联网平台在AIoT领域8大场景应用

AIRIOT

低代码 物联网 低代码平台 低代码,项目开发

云行| 天翼云中国行走进宁波,推动千行百业迈向数字化转型之路

天翼云开发者社区

web前端培训课程哪家好

小谷哥

多因素身份认证 (MFA) 插件:手机验证码认证因素配置流程

龙归科技

开源 手机验证码认证

小程序转 App 帮助中小企业打开营销新窗口

FinClip

大数据开发入门学习方法推荐

小谷哥

Java 将 Word 转换为PDF文档

在下毛毛雨

Java PDF word Word转PDF

一键小程序转换App,极低门槛实现组装式App

FinClip

【React】从0到1搭建你的React18项目

海底烧烤店ai

前端 React Hooks 9月月更

为什么C++能屹立这么久?细说C++ 可以开发的 7 件事 以及 C++ 的特点和学习的优点

C++后台开发

c++ C/C++ C++后台开发 C++开发 C++开发工程师

新思科技发布《一往无前:GitOps与安全左移》报告

InfoQ_434670063458

新思科技 开源软件 Synopsys 供应链安全

快速入门JavaScript

楠羽

JavaScript 笔记 9月月更

2022世界人工智能大会开幕,天翼云注智城市数字化转型

天翼云开发者社区

[MyBatisPlus]id生成策略控制

十八岁讨厌编程

Java spring 9月月更

重磅启动!第 17 届「中国 Linux 内核开发者大会」征稿

OpenAnolis小助手

Linux 征稿 内核 开发者大会 龙蜥社区

什么是接入点 Access point?

wljslmz

网络技术 无线技术 9月月更 无线接入点

数据库高可靠,轻松解决事务丢失问题

天翼云开发者社区

Solo博客静态部署到码云gitee —— 全网最详细系列

海底烧烤店ai

部署 博客系统 博客搭建 9月月更

打造国云安全品牌,铸牢企业云上安全防线

天翼云开发者社区

研发效能提升不来自于度量本身,而来自于针对性的改进

万事ONES

vue2数据响应式原理——数据劫持(对象篇)

海底烧烤店ai

前端 JavaScrip vue源码解读 9月月更

AntDB基于Oracle兼容下的DECODE函数适配

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

从华为数字机器人秋季发布会,看智慧政务领域的“政务新视界”

王吉伟频道

RPA 自动化优先 智慧政务 华为数字机器人 数字机器人

天翼云铸牢国云安全,护航千行百业

天翼云开发者社区

小程序容器,让你快速控制智能家居

Geek_99967b

小程序 小程序容器

[MyBatisPlus]映射匹配兼容性

十八岁讨厌编程

Java 后端开发 9月月更

[MyBatisPlus]乐观锁、代码生成器

十八岁讨厌编程

Java 后端开发 9月月更

本周四晚19:00知识赋能第八期第1课丨ArkUI框架整体设计

OpenHarmony开发者

OpenHarmony

零基础学习大数据还是自学呢

小谷哥

跳槽一次能涨多少?一份1500道大厂面试题笔记就够了,涨薪80%

程序知音

Java 程序员 java面试 后端技术 Java八股文

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建_阿里巴巴_付秋伟_InfoQ精选文章