
8 月 7 日下午,龙蜥智算基础设施联盟(以下简称“龙蜥智算联盟”)正式成立。场内没有“新概念”的喧嚣,更多是工程师式的朴素目标:把分散在产业链上下游、不同厂商与不同版本之间反复踩过的“坑”,沉淀成可复用的公共能力。“我们希望把一些公共问题,通过技术工作组用更通用的方式解决,让更多企业复用。”龙蜥智算联盟主席宋卓说。
眼下 AI 正从试验期迈向规模化生产,企业真正面对的,是多元算力、性能与可靠性、数据安全与合规的综合工程问题。龙蜥选择的路径,是在开源与产业之间搭一座“工程化的桥”:以统一基线、上游合入、工具与流程的标准化,给企业“可上线、能运营、压成本”的确定性。
受访嘉宾
杨勇|龙蜥社区技术委员会主席(阿里云技术软件技术总监)宋卓|龙蜥智算基础设施联盟主席(阿里云高级技术专家)苏志远|浪潮信息系统软件产品部总经理(龙蜥社区技术副主席)朱其罡|FlagOS 社区秘书长
一、为什么是现在:从“能跑”到“可托付”
大模型时代,多元算力并存:CPU、GPU、DPU、FPGA、ASIC 一并上场;芯片厂商各自提供驱动与 SDK,算法开发强依赖配套库,“软烟囱”林立;训练推理走向大规模,内存、存储、网络带宽常遇“天花板”,万卡级集群的故障率与稳定性成为刚性挑战;敏感数据又把隐私与合规的门槛抬得更高。
杨勇与苏志远从一线视角把这些宏观问题落回工程细节:版本升级牵一发而动全身、算力异构让集成与运维的复杂度指数上涨、性能和稳定性必须用全栈视角治理,而不是让某一层“硬扛”。
苏志远提到,国内外加速器厂商多、软件栈差异大,操作系统一升级、Python、Gcc 版本变化等可能引发适配问题;对企业而言,往往变成“各踩各的坑”。因此龙蜥智算联盟在产业中游搭起“连廊”:把操作系统版本、内核与关键包的选型尽量统一到一条基线,同时把上游加速器与下游应用、高校拉到一张桌面,“把坑先在内部踩完”,减少重复消耗。
杨勇从系统视角补上另一半现实:企业需要的是让智能体、让 AI 应用稳定运行的环境。这意味着在操作系统层要集成成熟的推理部署框架,降低部署门槛;也意味着安全与可信必须“内建”。除了在模型与用户交互过程中做加解密,还要建立远程证明能力,让运行环境“可被证明是可信的”。这类能力不该是某家平台的“卖点”,而应成为公共基础设施。
“为什么要现在就做”并不抽象。一个案例足以说明普遍性:并行文件系统+ CentOS 7.9 内核导致某客户性能下滑 30%。杨勇回忆,诊断花了很久,修复却很“朴素”——换到合适的 OS 版本即可。真正难的是把原因与路径系统化、知识化,配上可执行的版本策略,避免后来者在另一个场景里重演同样代价。
二、做什么:三件硬事,两条支撑
龙蜥智算联盟采用工作组推进,盯三件“能尽快产生复用价值”的硬事,同时配两条纵向支撑,尽量把“能落地的动作”说清楚。
第一件:测试与兼容性标准化。
建立系统兼容性测试基准,特别是围绕 GPU 兼容性测试形成一致性标准规范,减少 GPU 与不同商业版 OS 的重复适配工作量。龙蜥操作系统装机量已突破 800 万套、商业版达 14 个、服务客户超 100 万。
对于 GPU 厂商而言,每做一次对这些商业版的适配,都要经历协调设备、部署系统、设备检测、功能与稳定性测试等流程,并确保相关 AI 软件栈正常运行,“一般需要 3 天左右”。龙蜥智算联盟将通过统一驱动基线与测试指南/规范建设,降低适配复杂度与维护成本,实现 AI 硬件与龙蜥操作系统 的“原生适配”,这也是“AI Native OS”的应有之义。
第二件:全栈性能分析与优化。
宋卓强调性能是全栈问题;把“抓手”落在开源 AI 框架与国内芯片的适配平台:联合 OS、芯片与模型方,攻关“框架↔芯片”的适配,发布与组内芯片、龙蜥操作系统的最佳适配版本并提供维护支持;在技术工作组(TG)下,围绕算子库优化、AI 基础设施 RAS 能力提升、CPU 与 GPU 异构算力协同优化展开研究,把系统软件的整体性能做上去。
第三件:可靠性相关。
“规模一上来,偶发就会高频化。”宋卓说。构建统一的故障管理规范,围绕万卡级训练中的高故障率场景,整合整机、系统、GPU 及 AI 业务等上下游相关方,规定 GPU、PCIe Switch 等关键硬件状态与 RAS 信息的日志抓取范围与协议,统一日志格式与上报机制,做故障相关性处理,提升集群场景下的统一分析与管理效率,降低信息抓取与根因定位成本。
纵向支撑之一:开源合规做成“流程能力”。
宋卓介绍,龙蜥智算联盟联合多家企业为生态伙伴提供开源合规咨询;龙蜥社区已经建设了合规检查基础设施,支持代码扫描与开源协议合规检查,把“想开源、怕合规”的顾虑压到流程内解决。
纵向支撑之二:隐私与可信做成“公共设施”。
杨勇强调,除了交互链路的加解密,还需要把远程证明做成公共基础设施,形成“三方可信的中间人”;苏志远补充,社区已在可信/隐私计算上有积累,并推出一套机密计算端到端框架,用于大模型推理的数据隐私保护。 与上述三件硬事并行,龙蜥智算联盟还把“KABI 白名单维护”作为底层工程的常态化工作:在龙蜥 6.6 与 5.10 内核主线的 KABI 白名单基础上,扫描各 GPU 厂商提供的 RUN/RPM 驱动包,新增所需 KABI 接口,以提升 OS 对新型 GPU 的兼容性。联盟筹备至成立期间,已在 5.10 与 6.6 主线上新增 800+ KABI。
三、技术路线与储备
“AI 原生操作系统”该怎么理解?杨勇把学术界与工业界的路径分开来谈。
学术界确实有人设想用“大模型做操作系统内核”,让内核用自然语言分配资源,但现实门槛极高——推理延迟是毫秒级,内核响应是微秒/亚微秒级,“短期很难落地,成本也不划算”。
工业界更可行的路是在 Linux 生态里渐进演进:把系统服务(非内核部分)用更智能的方式重做,一方面为“智能体运行环境”提供基础设施,另一方面用“AI for System/AI for OS”改造系统优化、运维与漏洞响应等流程。
杨勇把这条演进路比作“自动驾驶分级”——从需要人类接管的辅助到更高程度的自主,取决于基础模型能力以及哪些系统服务适合用智能化方式重写。他也强调今天的大模型推理天然是分布式的,因此“系统观”和全链路协同比概念上的“再定义”更重要。
围绕这条务实路线,给出了几件“抓手”。
其一是 PD(Prefill/Decode)分离与投机解码。杨勇提到,这些优化已经在上游产品中被当作关键特性发布,而其中“PD 分离”等由龙蜥社区开源贡献到上游。用他的话说,这类能力不是为了噱头,而是“把端到端的性能和成本问题真正按场景拆开解决”。
其二是 CPU + GPU 协同。苏志远强调“不要让 CPU 的算力闲着”:在不改变模型语义的前提下,把部分推理工作(例如 CPU decode)从 GPU 上卸下来,同时在 GPU 侧做好显存调度与缓存优化,避免 GPU 成为单点瓶颈。“协同”的目标不是把某一层压到极致,而是把整机算力“拧成一股绳”。
其三是多元算力与异构优化的“减复杂”。苏志远把“适配难点”界定为生态复杂度:硬件侧通过 OEM 规范与 OCP 实践先把一致性打牢;软件侧在软件版本、组件与接口上统一选型,降低升级与适配的连锁成本。
龙蜥智算联盟技术储备方面,杨勇提到他们在 VRM、SGR 等方向的持续投入,投机解码、PD 分离这类能力已进入上游产品发布的关键特性清单,“有我们的开源直接贡献”。
朱其罡介绍,FlagOS 社区以全开源方式打造“AI 基础软件核心组件”(包括算子库、编译器等),算子数量已超 200,其中“76%的算子性能超过 CUDA”(社区内部对标数据);在后端适配上,覆盖 18 款加速器;并提供 FlagPerf 做性能测试与跟踪。他强调,这些能力“和操作系统结合起来”,就能支撑“在多种服务器上快速跑起多款模型应用”,与龙蜥在 OS/发行版/兼容治理上的工作形成上下游互补。
在“抓手”之外,杨勇专门点出一个经常被忽视、却影响部署成败的工程难题——容量规划。不同模型结构(例如 MoE、MLA)对并行策略和卡型的敏感度差异很大,“部署前怎么把性价比算清楚”,目前“只有少数人掌握”。缺了这一步,企业很难在采购与架构阶段就把成本与性能的平衡“算在纸面上”,后续就容易在试错中消耗。
四、组织方式:工作组节奏与“先合后竞”
技术路径要落到人和流程上。宋卓提到,社区天然较为松散,效率要靠“目标与节奏”。因此联盟采用工作组推进:每个组确立具体目标与计划,围绕真实生产问题组织讨论与推进,必要时孵化项目,并与成员单位内的落地对齐。成员构成上,有“核心贡献者”,也有“先参与、逐步找到契合点”的单位;高校在其中扮演“探索力量”,与工业界问题对接,把探索拉向落地。
在“多社区、多厂商”的生态里,反碎片化必须落在“合”的动作上。杨勇把与其他社区的关系定义为竞合:有竞争,也有合作。关键做法是尽量把优化合入上游主线,让不同发行版“自然继承”,把优化“变成标准化技术”。他提醒,不拥抱开源的私有路线更易造成碎片化;而通过“开源规范与行业对话”,可以在“不压制创新”的前提下降低“无谓差异”。
苏志远从产业协同层面补充到,在相关政策的指导下,五大社区已经统一了内核版本与 200 多个软件包的选型。 与此并行的,是产学研协同:通过技术攻关、协同创新、成果转化,把“模型+系统(云)+芯片”的纵向贯通做成常态,完善开源操作系统生态体系,推动开源技术持续创新。
五、企业价值:更快上线、更稳运营、更低成本
工程团队要的不是口号,而是确定性——能上线、能稳定、能算清成本、能过审计。
其一,上线时间缩短、集成成本下降。 统一的版本选型与兼容清单、端到端的验证口径,能明显减少集成周期与变更不确定性。像“7.9 内核+并行文件系统-30%”这类隐形坑,一旦沉淀进知识库并配上版本策略,后来者就能直接避开,不必再“摸石头过河”。
其二,稳定性与可运维性提升。 把可靠性与运维的工具、方法、流程做成“共同语言”,把“偶发”关进笼子;联盟推进的统一故障管理规范(日志范围、格式与上报、相关性分析)直接改善集群级的定位效率与 RAS 水位。
其三,性能/成本更可控,创新转化更快。 宋卓强调“性能是全栈工作”,最终目标落在一句朴素的话上——把每个 token 的真实成本打下来。框架-芯片适配平台与算子/RAS/异构协同优化,意在减少“低水平重复”,让团队把更多人力投向模型与业务创新;
其四,合规/安全与生态可持续。
把合规扫描与法务协作做成流程,把机密计算与远程证明做成设施,意味着“可上线”可以等价为“可审计、可托付”。与此同时,依托龙蜥社区的用户群与场景,联盟强调“构建智能计算生态,满足多样化需求”:快速响应、持续支持,减少“单点厂商绑定”的结构性风险。
评论