2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

  • 2025-08-13
    北京
  • 本文字数:5579 字

    阅读完需:约 18 分钟

大小:2.72M时长:15:52
AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建

当前,AI 浪潮正以前所未有的力量重塑产业格局,国产化替代的加速推进,也让基础设施领域的技术创新成为了焦点。服务器操作系统作为算力底座的核心,正在经历着从 “适配” 到 “AI 原生驱动” 的关键变革。


由阿里云联合 InfoQ 打造的《AI 进化论:智算时代操作系统的破局之路》栏目首期,邀请北京大学计算机学院教授、副院长,中国计算机学会开源发展委员会副主任 周明辉,阿里云智能集团研发副总裁、龙蜥社区理事长马涛,围绕 AI 对操作系统的影响、技术演进、安全挑战、国产化机遇及生态构建等核心命题展开深度对话,解构智算时代操作系统的破局逻辑与实践路径。



以下为经编辑整理后的内容精粹。


01_AI 时代操作系统的重构与考验


操作系统的本质,始终是 “向下管理硬件资源,向上为用户和应用提供开发与运行保障”。周明辉教授在直播中强调,这一核心定位从未改变,但随着应用场景与硬件资源的迭代,其承载的功能与面临的挑战已发生根本性变化。从早期物理服务器时代的硬件资源管理,到云计算时代的虚拟化与多租户隔离,每一次技术革命都推动着操作系统的能力边界不断拓展。而 AI 时代的到来,尤其是大语言模型的训练与推理场景,正给这一经典系统带来前所未有的冲击。


“大语言模型的训练和推理,其核心特点是计算密集、数据量大、参数众多,这使得算力、存储、数据、模型必须实现一体化协同管理。” 周明辉指出,这种协同需求对传统的资源管理模式构成了 “革命性挑战”—— 传统操作系统的进程调度、内存分配、文件管理逻辑,已难以满足 AI 场景下的高效协同要求。


马涛结合近 20 年的产业实践,进一步拆解了 AI 场景的具体挑战。他以 GPU 为例:“现在一台 GPU 一体机成本高达几百万,让它高效运行 10 分钟,操作系统需要做好大量底层工作。” 在训练场景中,数据量的爆发式增长要求操作系统重新设计存储策略 ——AI 训练的中间数据多存储于对象存储或高性能文件存储中,如何将数据高效搬运至 GPU 显存、如何在显存不足时实现与内存的动态置换,都成为全新课题。而在推理场景中,多步骤计算对 CPU、GPU、存储、网络的差异化需求,更要求操作系统具备动态适配能力。


这种变化的背后,是计算核心的迁移。“过去数据中心以 CPU 为核心,调度算法围绕 CPU 设计;现在则转向以 GPU 为核心,CPU 更像‘保姆’—— 需要提前完成数据处理、内存准备等工作,让 GPU 专注于计算。” 马涛解释道,这种转变不仅涉及计算逻辑的重构,更引发了网络栈的连锁变革:在多机多卡协同场景下,数据如何跨设备高效传输、如何诊断机器间的故障、如何优化 shuffle 与 reduce 等操作,都需要操作系统在网络层进行深度革新。阿里云的 HPN7.0 技术在 SIGCOMM 上获得 best paper,正是这种优化的典型成果。


从实践来看,AI 驱动的变革已体现在操作系统的每一个细节中。马涛透露:“我们在阿里云通过持续优化计算、存储、网络等模块,将改进逐步开源到社区。每个小优化叠加后,操作系统会慢慢变得‘不一样’—— 比如针对 GPU 的调度算法、针对大模型的内存管理策略,这些积累最终会形成适配 AI 场景的新系统。”


据介绍,最新发布的阿里云服务器操作系统 4.0,便是上述优化的集大成者,它深度整合了 AI 训练与推理场景的底层能力,比如针对 GPU 显存与内存的智能置换算法、多机多卡协同的低延迟网络调度等,都是从千万级 AI 任务中沉淀出的技术结晶。


02_技术演进与安全攻坚:在改良与突破中寻找平衡


面对 AI 带来的挑战,操作系统的演进呈现出两条清晰路径。周明辉将其概括为 “改良与革命并存”:一条是基于传统架构进行 AI 适配优化,另一条是重构全新架构,让 AI 成为操作系统的核心。


“传统操作系统的架构已发展数十年,承载了无数应用,面向 AI 做改进是必须走的路,但这条道路充满挑战。” 周明辉坦言,传统技术路线的复杂性使得满足 AI 场景的大数据量、高计算密度、快存储响应等需求极为困难。以内存管理为例,大模型的参数规模动辄数十亿甚至上百亿,传统的分页机制与缓存策略已难以应对,必须重新设计内存分配与回收逻辑。


马涛从产业视角印证了这一判断:“工业界目前更侧重第一条路径,因为要兼顾现有用户的 legacy 系统与业务连续性。” 他以阿里云为例,操作系统团队通过 “小步快跑” 的方式持续迭代 —— 针对 AI 训练场景优化存储 I/O、针对推理场景优化任务调度、针对多卡协同优化网络传输,这些改进并非颠覆性创新,但积累到一定程度后,系统会呈现出全新的适配能力。“我们把这些工作开源到社区,一方面接受社区验证,另一方面也能汇聚更多开发者的智慧,从量变积累到质变。阿里云服务器操作系统 4.0 版本就是这种迭代模式的阶段性成果:它既兼容传统业务的运行需求,又能通过‘AI 加速引擎’模块为大模型训练提供专属优化,实现了‘legacy 系统平稳过渡’与‘AI 场景高效支撑’的双重目标。”


对于第二条路径,即 “AI 即操作系统” 的架构革新,两位嘉宾均认为其是未来方向,但需长期探索。“传统操作系统模型确实不适合 AI 场景,未来可能基于 GPU 核心重构体系,甚至用 Rust 语言重写内核。” 马涛指出,企业当下难以全身心投入,因为要平衡客户需求与技术革新 —— 这也是新型创业公司的机会所在,“它们没有历史包袱,可以轻装上阵,尝试全新架构”。周明辉补充道:“学术界也在关注这一方向,比如探索如何让大语言模型直接承担部分操作系统功能,未来用户可能‘用自然语言操作电脑’,这会彻底改变人机交互模式。”


技术演进的同时,安全与供应链风险成为不可忽视的挑战。周明辉从学术研究出发,提出两大核心解决方向:一是通过 Rust 语言重写内核解决内存安全问题,“比如北大国家实验室与蚂蚁集团合作的‘星绽操作系统内核’,利用 Rust 的内存安全特性构建‘宽内核’,在保障安全的同时兼顾性能”;二是通过形式化验证确保内核功能正确性,“形式化验证能发现传统测试无法察觉的数值溢出、条件竞争等问题,为自动驾驶、工业控制等安全攸关场景提供确定性保障”。


AI 场景的特殊性还加剧了供应链风险。周明辉强调:“软件供应链是全球命运共同体,只要互联网存在,所有参与者都无法独善其身。AI 供应链的风险更具独特性 —— 训练数据可能被投毒,海量参数中潜藏后门,从硬件芯片到 AI 框架的全链条都可能出现漏洞。” 他特别提到 XZ Utils 供应链投毒事件暴露出的社会工程学攻击,以及国内生态处于全球下游面临的 “断供风险”,“这些问题不是中国特有,而是全球性挑战,需要学界与产业界共同应对”。


针对上述安全方面的挑战,马涛从产业角度提出了 “体系化、平台化、智能化” 的应对策略。“体系化即覆盖代码拉取、编译环境、发布渠道等全环节,确保每个节点可控 —— 比如上游代码的溯源、编译机器的安全加固、发布包的签名验证。” 他解释道,“平台化是将所有信息透明化,让用户知晓软件包的来源、漏洞与升级路径,龙蜥社区已经实现了这一点,所有包的评分、更新记录、安全漏洞都公开可查。” 而智能化则是利用大模型提升安全水位,“比如让 AI 模拟攻击者进行渗透测试,或者自动分析代码中的潜在漏洞,这能大幅提升安全检测效率”。


在运行时安全方面,阿里云正在研发 “龙盾” 功能,通过全栈防护机制隔离风险。“即使攻击者突破防线,也无法获取其他用户数据,以此将安全损失降到最低。” 马涛坦言,对于大模型的数据污染风险,目前行业仍在探索,“我们在尝试通过数据标注与溯源技术提前识别风险,但无法做到零风险,只能尽力降低”。


03_国产化突围与生态共建:从 “跟跑” 到 “生态位跃升”


除了 AI 浪潮,“国产化”则是操作系统演进过程中的又一重要趋势。2020 年的 CentOS 停服事件,成为了国产服务器操作系统发展的 “转折点”。周明辉回忆:“当时全中国服务器中十之八九使用 CentOS,停服消息如同地震,这暴露了我们在全球软件生态位的低端 —— 过度依赖上游,一旦上游‘断水’,下游便陷入困境。” 但他同时强调,国产化绝非简单的 “替代”,而是 “立足全球化,向生态位高位攀升”。


“软件是全球化市场,国产化不能关起门来做。” 周明辉的观点鲜明,“我们的目标是吸引全球智力与市场,让国产操作系统不仅服务国内用户,更能进入国际市场。比如开源项目,就应该利用全球的开发者资源,解决全球性问题。”


马涛将国产化路径总结为 “脚踏实地 + 仰望星空”。他表示:“‘脚踏实地’是指通过社区的延保计划,帮助用户平稳过渡 —— 很多企业的业务系统基于 CentOS 构建,开发者可能都已离职,让他们重新适配新系统不现实。我们通过兼容接口、提供 CVE 更新,让用户能‘无痛迁移’,如同为旧桥梁铺设新的桥面,确保通行不受影响。” 而 “仰望星空” 则是积极参与国际上游生态,“在 Linux Kernel 等关键子系统中贡献代码,在 RISC-V、虚拟化等标准制定中争取话语权,如同从参与游戏到逐步制定游戏规则”。


他以龙蜥社区的实践为例:“我们联合欧拉、OpenCloudOS 达成生态协议,对 200 多个核心包(如 Kernel、GCC、GLIBC)统一版本与维护策略。这些包是操作系统的‘基石’,统一标准能减少重复劳动,让各方集中精力做差异化创新,如同大家共同建设地基,再各自加盖特色建筑。阿里云服务器操作系统 4.0 正是这一生态协同的产物,它基于龙蜥社区的技术底座,严格遵循核心包的统一标准,同时针对云与 AI 场景做了深度优化 —— 比如针对国产芯片的原生支持,能够实现‘一次适配,多平台运行’,这也是阿里云‘差异化竞争力’的具体体现。 ”


当然,核心组件的协同只是生态共建的起点,要实现真正的国产化突围,还需要构建一个多方共赢的生态系统 —— 这既是应对全球竞争的必然选择,也是技术持续迭代的核心支撑。周明辉指出:“生态的核心在于两个维度 —— 一是软件依赖网络中的生态位,即有多少下游软件、用户与市场依赖;二是社区参与度,包括开发者、企业、机构的贡献度,各方围绕价值诉求形成共生体系,如同一个热带雨林,不同物种相互依存、共同繁荣。” 他特别强调吸引年轻学子的重要性,“操作系统的未来在于年轻人,要通过开源大赛、课程合作等方式,让他们参与到社区建设中,如同培育树苗,为森林的未来储备力量”。


在这样的生态体系中,企业的参与并非单纯的 “慈善”,而是基于自身利益的理性选择,唯有形成利益共生的闭环,生态才能持续运转。马涛从产业视角补充了生态构建的关键:“技术决定生态的下限,而生态决定社区的上限。” 在他看来,健康的生态需要满足三个条件:一是开发者生态,吸引学生与爱好者 “为爱发电”——“我当年进入操作系统领域,就是因为兴趣,这种动力是持久的,如同艺术家对创作的热爱”;二是企业参与需找到利益回流点,“我们需要确保的是生态圈里的各方利益不冲突,形成 1+1>2 的效应,如同在一条产业链上,每个环节都发挥优势,共同提升整体价值”;三是清晰的定位与分工,“上游社区做好核心组件维护,中游发行版做好场景适配,下游企业提供服务与销售,形成良性链条,如同河流的上游、中游、下游各司其职,最终滋养整片土地”。


这种生态协同已初见成效。马涛透露:“龙蜥社区的包管理体系会对每个软件包打分,根据活跃度、更新频率、漏洞修复速度等指标推荐最优选择。这不仅降低了用户的使用门槛,也让上游开发者更重视包的质量 —— 形成正向循环,如同一个优质市场,买家与卖家相互促进,共同提升商品品质。”


04_未来展望:在产学研协同中定义下一代操作系统


对于下一代操作系统的形态,两位嘉宾一致认为 AI 将成为核心驱动力。周明辉预测:“传统架构的重构与全新架构的探索将长期并存。随着大语言模型能力的提升,未来可能实现‘用人话操作操作系统’—— 用户无需调用 API,只需自然语言指令,系统就能自动完成部署、调度等操作。”


马涛则从产业视角分享了阿里云服务器操作系统接下来的三大方向:一是持续优化核心组件,适配快速迭代的 AI 模型,“去年还是稠密模型,今年就变成 MOE(混合专家模型),参数规模从百亿级跃升到千亿级,操作系统必须紧跟这种变化,这也是我们在 Alinux 4.0 版本基础上规划下一代迭代的核心方向”;二是做好国产化算力的协同管理,“国内的 GPU、TPU 等异构芯片越来越多,操作系统要抽象硬件差异,让用户‘用起来一样方便’”;三是推动操作系统的智能化,“通过 AI 优化安全检测、运维调度、文件系统等模块,最终实现‘System for AI’与‘AI for System’的融合”。


产学研协同将加速这一进程。周明辉认为:“学术界可聚焦基础问题,比如新的调度算法、存储模型,通过‘小切口’突破;企业则擅长工程化落地,将学术成果转化为产品能力。” 他以形式化验证为例:“比如高校团队花数年时间攻克理论难题,然后企业则将其应用到内核开发中,只有这种协同才能真正解决问题。”


马涛补充道:“阿里与高校的合作模式有三种 —— 联合实验室聚焦长期方向,定向项目解决具体问题,开源合作吸引师生参与。比如在 AI for Security 领域,我们与高校合作训练大模型检测漏洞,既推动了学术研究,也解决了产业痛点。”


正如两位嘉宾所言,智算时代的操作系统正站在历史转折点上。无论是改良与革命并行的技术路线,还是 “立足全球化” 的国产化策略,亦或是 “价值共生” 的生态理念,其核心都是让操作系统真正成为 AI 时代的算力底座。在这条破局之路上,产学研的协同、企业的持续投入与开源生态的繁荣,将共同推动操作系统实现从 “适配 AI” 到 “原生驱动 AI” 的跨越,进而为全球智算产业发展注入中国力量。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。

2025-08-13 16:226507

评论

发布
暂无评论
发现更多内容

Go iota 原理和源码剖析

编程宝库

恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

恒源云

人工智能 深度学习

明道云商业化成果巡礼|2021年11月

明道云

【体验有礼】Serverless 极速搭建 Hexo 博客

阿里巴巴中间件

阿里云 Serverless 云原生 Hexo 中间件

一个站点不够学?那就在用Python增加一个采集目标,一派话题广场+某金融论坛话题广场爬虫

梦想橡皮擦

11月日更

构建 Snowpack + React + Typescript + Electron的Desktop App

吴脑的键客

typescript Electron React webpack

阿里IM技术分享(六):闲鱼亿级IM消息系统的离线推送到达率优化

JackJiang

架构设计 即时通讯 IM

网易云信发布虚拟形象实时互动融合 SDK ,元宇宙大幕即将开启

网易云信

人工智能 数字化 元宇宙

北省廊坊市本地有等保测评机构吗?在哪里?

行云管家

网络安全 等保 等级保护 等保测评 廊坊

拒绝编译等待 - 动态研发模式 ARK

字节跳动终端技术

ios 字节跳动 移动开发

无处不在的 Kubernetes,难用的问题解决了吗?

阿里巴巴中间件

阿里云 Kubernetes 容器 云原生 中间件

iOS开发面试和底层学习视频整理合集

iOSer

ios iOS面试 ios开发 iOS视频学习 iOS涨薪

多变的智能降噪

睿象云

运维 告警 智能运维 告警管理

干货分享:细说双 11 直播背后的压测保障技术

阿里巴巴中间件

阿里云 云原生 中间件 全链路 PTS

【堡垒机小知识】堡垒机是硬件还是软件?

行云管家

网络安全 信息安全 数据安全 堡垒机

🏆【Alibaba中间件技术系列】「RocketMQ技术专题」小白专区之领略一下RocketMQ基础之最!

码界西柚

RocketMQ 消息队列 Alibaba技术 11月日更

视野 | OpenSearch,云厂商的新选择?

RadonDB

数据库 搜索引擎; Elastic Search

原因揭秘!为什么选择 Pulsar 而非 Kafka

Apache Pulsar

kafka 开源 架构 分布式 Apache Pulsar

程序员的硬核浪漫 — 女友专属语聊房(内附源码)

ZEGO即构

音视频 语聊房 demo源码 即构科技

许式伟:Go+ Together丨Go+ 1.0 发布会干货分享

七牛云

Go 语言

参会指南 | 2021MongoDB南京技术沙龙

MongoDB中文社区

mongodb

林昊:开发者如何提升写代码的硬实力丨Go+ 1.0 发布会干货分享

七牛云

Go 语言

【高并发】通过源码深度分析线程池中Worker线程的执行流程

冰河

Java 并发编程 多线程 高并发 异步编程

许式伟:Go+ v1.x 的设计与实现丨Go+ 公开课 • 第一期

七牛云

Go 语言 goplus

HarmonyOS 3.0.0开发者预览版全新发布

HarmonyOS开发者

HarmonyOS ArKUI 3.0 ArkCompiler 3.0

巅峰对话在线研讨 Q&A:Oracle Database 21c vs openGauss 2.0新特性解读和架构演进

墨天轮

数据库 oracle opengauss

频繁更新主机,导致pod ip不够解决方法

ilinux

Go+ Together!Go+ 1.0 发布会暨 Go+ 开发者基金会启动仪式圆满结束!

七牛云

Go 语言

黄东旭:写给后端程序员看的认知心理学丨Go+ 1.0 发布会干货分享

七牛云

Go 语言

vue3 学习笔记 (一)——mixin 混入

码仔

Vue3 mixin

Microsoft SQL Server 迁移利器,Babelfish for Aurora PostgreSQL 上线!

亚马逊云科技 (Amazon Web Services)

数据库 开源 源代码

AI 时代操作系统的三重叙事:技术重构、国产化突围与生态共建_阿里巴巴_付秋伟_InfoQ精选文章