统一、优化、可信：龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”_软件工程_InfoQ

10 月 23 - 25 日，QCon 上海站即将召开，9折优惠最后1天了解详情 



 写点什么



大小：2.06M时长：12:00

8 月 7 日下午，龙蜥智算基础设施联盟（以下简称“龙蜥智算联盟”）正式成立。场内没有“新概念”的喧嚣，更多是工程师式的朴素目标：把分散在产业链上下游、不同厂商与不同版本之间反复踩过的“坑”，沉淀成可复用的公共能力。“我们希望把一些公共问题，通过技术工作组用更通用的方式解决，让更多企业复用。”龙蜥智算联盟主席宋卓说。

眼下 AI 正从试验期迈向规模化生产，企业真正面对的，是多元算力、性能与可靠性、数据安全与合规的综合工程问题。龙蜥选择的路径，是在开源与产业之间搭一座“工程化的桥”：以统一基线、上游合入、工具与流程的标准化，给企业“可上线、能运营、压成本”的确定性。

受访嘉宾

杨勇｜龙蜥社区技术委员会主席（阿里云技术软件技术总监）宋卓｜龙蜥智算基础设施联盟主席（阿里云高级技术专家）苏志远｜浪潮信息系统软件产品部总经理（龙蜥社区技术副主席）朱其罡｜FlagOS 社区秘书长

一、为什么是现在：从“能跑”到“可托付”

大模型时代，多元算力并存：CPU、GPU、DPU、FPGA、ASIC 一并上场；芯片厂商各自提供驱动与 SDK，算法开发强依赖配套库，“软烟囱”林立；训练推理走向大规模，内存、存储、网络带宽常遇“天花板”，万卡级集群的故障率与稳定性成为刚性挑战；敏感数据又把隐私与合规的门槛抬得更高。

杨勇与苏志远从一线视角把这些宏观问题落回工程细节：版本升级牵一发而动全身、算力异构让集成与运维的复杂度指数上涨、性能和稳定性必须用全栈视角治理，而不是让某一层“硬扛”。

苏志远提到，国内外加速器厂商多、软件栈差异大，操作系统一升级、Python、Gcc 版本变化等可能引发适配问题；对企业而言，往往变成“各踩各的坑”。因此龙蜥智算联盟在产业中游搭起“连廊”：把操作系统版本、内核与关键包的选型尽量统一到一条基线，同时把上游加速器与下游应用、高校拉到一张桌面，“把坑先在内部踩完”，减少重复消耗。

杨勇从系统视角补上另一半现实：企业需要的是让智能体、让 AI 应用稳定运行的环境。这意味着在操作系统层要集成成熟的推理部署框架，降低部署门槛；也意味着安全与可信必须“内建”。除了在模型与用户交互过程中做加解密，还要建立远程证明能力，让运行环境“可被证明是可信的”。这类能力不该是某家平台的“卖点”，而应成为公共基础设施。

“为什么要现在就做”并不抽象。一个案例足以说明普遍性：并行文件系统+ CentOS 7.9 内核导致某客户性能下滑 30%。杨勇回忆，诊断花了很久，修复却很“朴素”——换到合适的 OS 版本即可。真正难的是把原因与路径系统化、知识化，配上可执行的版本策略，避免后来者在另一个场景里重演同样代价。

二、做什么：三件硬事，两条支撑

龙蜥智算联盟采用工作组推进，盯三件“能尽快产生复用价值”的硬事，同时配两条纵向支撑，尽量把“能落地的动作”说清楚。

第一件：测试与兼容性标准化。

建立系统兼容性测试基准，特别是围绕 GPU 兼容性测试形成一致性标准规范，减少 GPU 与不同商业版 OS 的重复适配工作量。龙蜥操作系统装机量已突破 800 万套、商业版达 14 个、服务客户超 100 万。

对于 GPU 厂商而言，每做一次对这些商业版的适配，都要经历协调设备、部署系统、设备检测、功能与稳定性测试等流程，并确保相关 AI 软件栈正常运行，“一般需要 3 天左右”。龙蜥智算联盟将通过统一驱动基线与测试指南/规范建设，降低适配复杂度与维护成本，实现 AI 硬件与龙蜥操作系统的“原生适配”，这也是“AI Native OS”的应有之义。

第二件：全栈性能分析与优化。

宋卓强调性能是全栈问题；把“抓手”落在开源 AI 框架与国内芯片的适配平台：联合 OS、芯片与模型方，攻关“框架↔芯片”的适配，发布与组内芯片、龙蜥操作系统的最佳适配版本并提供维护支持；在技术工作组（TG）下，围绕算子库优化、AI 基础设施 RAS 能力提升、CPU 与 GPU 异构算力协同优化展开研究，把系统软件的整体性能做上去。

第三件：可靠性相关。

“规模一上来，偶发就会高频化。”宋卓说。构建统一的故障管理规范，围绕万卡级训练中的高故障率场景，整合整机、系统、GPU 及 AI 业务等上下游相关方，规定 GPU、PCIe Switch 等关键硬件状态与 RAS 信息的日志抓取范围与协议，统一日志格式与上报机制，做故障相关性处理，提升集群场景下的统一分析与管理效率，降低信息抓取与根因定位成本。

纵向支撑之一：开源合规做成“流程能力”。

宋卓介绍，龙蜥智算联盟联合多家企业为生态伙伴提供开源合规咨询；龙蜥社区已经建设了合规检查基础设施，支持代码扫描与开源协议合规检查，把“想开源、怕合规”的顾虑压到流程内解决。

纵向支撑之二：隐私与可信做成“公共设施”。

杨勇强调，除了交互链路的加解密，还需要把远程证明做成公共基础设施，形成“三方可信的中间人”；苏志远补充，社区已在可信/隐私计算上有积累，并推出一套机密计算端到端框架，用于大模型推理的数据隐私保护。与上述三件硬事并行，龙蜥智算联盟还把“KABI 白名单维护”作为底层工程的常态化工作：在龙蜥 6.6 与 5.10 内核主线的 KABI 白名单基础上，扫描各 GPU 厂商提供的 RUN/RPM 驱动包，新增所需 KABI 接口，以提升 OS 对新型 GPU 的兼容性。联盟筹备至成立期间，已在 5.10 与 6.6 主线上新增 800+ KABI。

三、技术路线与储备

“AI 原生操作系统”该怎么理解？杨勇把学术界与工业界的路径分开来谈。

学术界确实有人设想用“大模型做操作系统内核”，让内核用自然语言分配资源，但现实门槛极高——推理延迟是毫秒级，内核响应是微秒/亚微秒级，“短期很难落地，成本也不划算”。

工业界更可行的路是在 Linux 生态里渐进演进：把系统服务（非内核部分）用更智能的方式重做，一方面为“智能体运行环境”提供基础设施，另一方面用“AI for System/AI for OS”改造系统优化、运维与漏洞响应等流程。

杨勇把这条演进路比作“自动驾驶分级”——从需要人类接管的辅助到更高程度的自主，取决于基础模型能力以及哪些系统服务适合用智能化方式重写。他也强调今天的大模型推理天然是分布式的，因此“系统观”和全链路协同比概念上的“再定义”更重要。

围绕这条务实路线，给出了几件“抓手”。

其一是 PD（Prefill/Decode）分离与投机解码。杨勇提到，这些优化已经在上游产品中被当作关键特性发布，而其中“PD 分离”等由龙蜥社区开源贡献到上游。用他的话说，这类能力不是为了噱头，而是“把端到端的性能和成本问题真正按场景拆开解决”。

其二是 CPU + GPU 协同。苏志远强调“不要让 CPU 的算力闲着”：在不改变模型语义的前提下，把部分推理工作（例如 CPU decode）从 GPU 上卸下来，同时在 GPU 侧做好显存调度与缓存优化，避免 GPU 成为单点瓶颈。“协同”的目标不是把某一层压到极致，而是把整机算力“拧成一股绳”。

其三是多元算力与异构优化的“减复杂”。苏志远把“适配难点”界定为生态复杂度：硬件侧通过 OEM 规范与 OCP 实践先把一致性打牢；软件侧在软件版本、组件与接口上统一选型，降低升级与适配的连锁成本。

龙蜥智算联盟技术储备方面，杨勇提到他们在 VRM、SGR 等方向的持续投入，投机解码、PD 分离这类能力已进入上游产品发布的关键特性清单，“有我们的开源直接贡献”。

朱其罡介绍，FlagOS 社区以全开源方式打造“AI 基础软件核心组件”（包括算子库、编译器等），算子数量已超 200，其中“76%的算子性能超过 CUDA”（社区内部对标数据）；在后端适配上，覆盖 18 款加速器；并提供 FlagPerf 做性能测试与跟踪。他强调，这些能力“和操作系统结合起来”，就能支撑“在多种服务器上快速跑起多款模型应用”，与龙蜥在 OS/发行版/兼容治理上的工作形成上下游互补。

在“抓手”之外，杨勇专门点出一个经常被忽视、却影响部署成败的工程难题——容量规划。不同模型结构（例如 MoE、MLA）对并行策略和卡型的敏感度差异很大，“部署前怎么把性价比算清楚”，目前“只有少数人掌握”。缺了这一步，企业很难在采购与架构阶段就把成本与性能的平衡“算在纸面上”，后续就容易在试错中消耗。

四、组织方式：工作组节奏与“先合后竞”

技术路径要落到人和流程上。宋卓提到，社区天然较为松散，效率要靠“目标与节奏”。因此联盟采用工作组推进：每个组确立具体目标与计划，围绕真实生产问题组织讨论与推进，必要时孵化项目，并与成员单位内的落地对齐。成员构成上，有“核心贡献者”，也有“先参与、逐步找到契合点”的单位；高校在其中扮演“探索力量”，与工业界问题对接，把探索拉向落地。

在“多社区、多厂商”的生态里，反碎片化必须落在“合”的动作上。杨勇把与其他社区的关系定义为竞合：有竞争，也有合作。关键做法是尽量把优化合入上游主线，让不同发行版“自然继承”，把优化“变成标准化技术”。他提醒，不拥抱开源的私有路线更易造成碎片化；而通过“开源规范与行业对话”，可以在“不压制创新”的前提下降低“无谓差异”。

苏志远从产业协同层面补充到，在相关政策的指导下，五大社区已经统一了内核版本与 200 多个软件包的选型。与此并行的，是产学研协同：通过技术攻关、协同创新、成果转化，把“模型+系统（云）+芯片”的纵向贯通做成常态，完善开源操作系统生态体系，推动开源技术持续创新。

五、企业价值：更快上线、更稳运营、更低成本

工程团队要的不是口号，而是确定性——能上线、能稳定、能算清成本、能过审计。

其一，上线时间缩短、集成成本下降。 统一的版本选型与兼容清单、端到端的验证口径，能明显减少集成周期与变更不确定性。像“7.9 内核+并行文件系统-30%”这类隐形坑，一旦沉淀进知识库并配上版本策略，后来者就能直接避开，不必再“摸石头过河”。

其二，稳定性与可运维性提升。 把可靠性与运维的工具、方法、流程做成“共同语言”，把“偶发”关进笼子；联盟推进的统一故障管理规范（日志范围、格式与上报、相关性分析）直接改善集群级的定位效率与 RAS 水位。

其三，性能/成本更可控，创新转化更快。 宋卓强调“性能是全栈工作”，最终目标落在一句朴素的话上——把每个 token 的真实成本打下来。框架－芯片适配平台与算子/RAS/异构协同优化，意在减少“低水平重复”，让团队把更多人力投向模型与业务创新；

其四，合规/安全与生态可持续。

把合规扫描与法务协作做成流程，把机密计算与远程证明做成设施，意味着“可上线”可以等价为“可审计、可托付”。与此同时，依托龙蜥社区的用户群与场景，联盟强调“构建智能计算生态，满足多样化需求”：快速响应、持续支持，减少“单点厂商绑定”的结构性风险。

发布

暂无评论

创作场景

统一、优化、可信：龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

一、为什么是现在：从“能跑”到“可托付”

二、做什么：三件硬事，两条支撑

三、技术路线与储备

四、组织方式：工作组节奏与“先合后竞”

五、企业价值：更快上线、更稳运营、更低成本

评论

图解 Volatile 原理三

架构实战 - 模块六

在线JSON转Go Bson工具

Apache Log4j2远程代码执行漏洞攻击，华为云安全支持检测拦截

技术架构的战略和战术原则

41 K8S之网络策略

如何对数组中的对象进行排序

给代码上一份保险

Gbase8a MPP Cluster 集群管理

Prometheus Exporter （二十三）Slurm Exporter

Flexagile 弹性敏捷 - 实践篇

实用机器学习笔记十：机器学习模型

Go+ HTTP 客户端教程（5.1）

回家

Android C++系列：Linux网络（四）TCP详解

Linux之cd命令

Deutsch-Jozsa Algorithm

HHL Algorithm

Flexagile 弹性敏捷 - 文化篇

Musical.ly 创始人：演化成就伟大的产品

当诗人遇到熟读2600亿中文参数的大模型

误删服务器/tmp下的文件之后引发的问题

将挖洞当作爱好和职业的笑与泪：微软漏洞研究员的自白

我们需要一个React框架吗?

在 Dart（以及 Flutter）中生成随机字符串的 3 种不同方法【Flutter专题21】

CSS之选择器（三）

通过接口百度网盘下载文件

2021，自动驾驶的“五代十国”

Quantum Mechanics Is Different

Flexagile 弹性敏捷 - 理论篇

WebP，淘宝都在用的图片优化方法

创作场景

统一、优化、可信：龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

一、为什么是现在：从“能跑”到“可托付”

二、做什么：三件硬事，两条支撑

三、技术路线与储备

四、组织方式：工作组节奏与“先合后竞”

五、企业价值：更快上线、更稳运营、更低成本

评论

电子书

大厂实战PPT下载