10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后1天 了解详情
写点什么

统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

  • 2025-08-15
    北京
  • 本文字数:4183 字

    阅读完需:约 14 分钟

大小:2.06M时长:12:00
统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

8 月 7 日下午,龙蜥智算基础设施联盟(以下简称“龙蜥智算联盟”)正式成立。场内没有“新概念”的喧嚣,更多是工程师式的朴素目标:把分散在产业链上下游、不同厂商与不同版本之间反复踩过的“坑”,沉淀成可复用的公共能力。“我们希望把一些公共问题,通过技术工作组用更通用的方式解决,让更多企业复用。”龙蜥智算联盟主席宋卓说。

 

眼下 AI 正从试验期迈向规模化生产,企业真正面对的,是多元算力、性能与可靠性、数据安全与合规的综合工程问题。龙蜥选择的路径,是在开源与产业之间搭一座“工程化的桥”:以统一基线、上游合入、工具与流程的标准化,给企业“可上线、能运营、压成本”的确定性。


受访嘉宾

杨勇|龙蜥社区技术委员会主席(阿里云技术软件技术总监)宋卓|龙蜥智算基础设施联盟主席(阿里云高级技术专家)苏志远|浪潮信息系统软件产品部总经理(龙蜥社区技术副主席)朱其罡|FlagOS 社区秘书长

一、为什么是现在:从“能跑”到“可托付”


大模型时代,多元算力并存:CPU、GPU、DPU、FPGA、ASIC 一并上场;芯片厂商各自提供驱动与 SDK,算法开发强依赖配套库,“软烟囱”林立;训练推理走向大规模,内存、存储、网络带宽常遇“天花板”,万卡级集群的故障率与稳定性成为刚性挑战;敏感数据又把隐私与合规的门槛抬得更高。

 

杨勇与苏志远从一线视角把这些宏观问题落回工程细节:版本升级牵一发而动全身、算力异构让集成与运维的复杂度指数上涨、性能和稳定性必须用全栈视角治理,而不是让某一层“硬扛”。

 

苏志远提到,国内外加速器厂商多、软件栈差异大,操作系统一升级、Python、Gcc 版本变化等可能引发适配问题;对企业而言,往往变成“各踩各的坑”。因此龙蜥智算联盟在产业中游搭起“连廊”:把操作系统版本、内核与关键包的选型尽量统一到一条基线,同时把上游加速器与下游应用、高校拉到一张桌面,“把坑先在内部踩完”,减少重复消耗。

 

杨勇从系统视角补上另一半现实:企业需要的是让智能体、让 AI 应用稳定运行的环境。这意味着在操作系统层要集成成熟的推理部署框架,降低部署门槛;也意味着安全与可信必须“内建”。除了在模型与用户交互过程中做加解密,还要建立远程证明能力,让运行环境“可被证明是可信的”。这类能力不该是某家平台的“卖点”,而应成为公共基础设施。

 

“为什么要现在就做”并不抽象。一个案例足以说明普遍性:并行文件系统+ CentOS 7.9 内核导致某客户性能下滑 30%。杨勇回忆,诊断花了很久,修复却很“朴素”——换到合适的 OS 版本即可。真正难的是把原因与路径系统化、知识化,配上可执行的版本策略,避免后来者在另一个场景里重演同样代价。

二、做什么:三件硬事,两条支撑


龙蜥智算联盟采用工作组推进,盯三件“能尽快产生复用价值”的硬事,同时配两条纵向支撑,尽量把“能落地的动作”说清楚。


第一件:测试与兼容性标准化。


建立系统兼容性测试基准,特别是围绕 GPU 兼容性测试形成一致性标准规范,减少 GPU 与不同商业版 OS 的重复适配工作量。龙蜥操作系统装机量已突破 800 万套商业版达 14 个服务客户超 100 万

 

对于 GPU 厂商而言,每做一次对这些商业版的适配,都要经历协调设备、部署系统、设备检测、功能与稳定性测试等流程,并确保相关 AI 软件栈正常运行,“一般需要 3 天左右”。龙蜥智算联盟将通过统一驱动基线测试指南/规范建设,降低适配复杂度与维护成本,实现 AI 硬件与龙蜥操作系统 的“原生适配”,这也是“AI Native OS”的应有之义。

 

第二件:全栈性能分析与优化。


宋卓强调性能是全栈问题;把“抓手”落在开源 AI 框架与国内芯片的适配平台:联合 OS、芯片与模型方,攻关“框架↔芯片”的适配,发布与组内芯片、龙蜥操作系统的最佳适配版本并提供维护支持;在技术工作组(TG)下,围绕算子库优化AI 基础设施 RAS 能力提升CPU 与 GPU 异构算力协同优化展开研究,把系统软件的整体性能做上去。

 

第三件:可靠性相关。


 “规模一上来,偶发就会高频化。”宋卓说。构建统一的故障管理规范,围绕万卡级训练中的高故障率场景,整合整机、系统、GPU 及 AI 业务等上下游相关方,规定 GPU、PCIe Switch 等关键硬件状态与 RAS 信息日志抓取范围与协议,统一日志格式与上报机制,做故障相关性处理,提升集群场景下的统一分析与管理效率,降低信息抓取与根因定位成本

 

纵向支撑之一:开源合规做成“流程能力”。


宋卓介绍,龙蜥智算联盟联合多家企业为生态伙伴提供开源合规咨询;龙蜥社区已经建设了合规检查基础设施,支持代码扫描开源协议合规检查,把“想开源、怕合规”的顾虑压到流程内解决。

 

纵向支撑之二:隐私与可信做成“公共设施”。


杨勇强调,除了交互链路的加解密,还需要把远程证明做成公共基础设施,形成“三方可信的中间人”;苏志远补充,社区已在可信/隐私计算上有积累,并推出一套机密计算端到端框架,用于大模型推理的数据隐私保护。 与上述三件硬事并行,龙蜥智算联盟还把“KABI 白名单维护”作为底层工程的常态化工作:在龙蜥 6.6 与 5.10 内核主线的 KABI 白名单基础上,扫描各 GPU 厂商提供的 RUN/RPM 驱动包,新增所需 KABI 接口,以提升 OS 对新型 GPU 的兼容性。联盟筹备至成立期间,已在 5.10 与 6.6 主线上新增 800+ KABI

三、技术路线与储备


“AI 原生操作系统”该怎么理解?杨勇把学术界工业界的路径分开来谈。

 

学术界确实有人设想用“大模型做操作系统内核”,让内核用自然语言分配资源,但现实门槛极高——推理延迟是毫秒级,内核响应是微秒/亚微秒级,“短期很难落地,成本也不划算”。

 

工业界更可行的路是在 Linux 生态里渐进演进:把系统服务(非内核部分)用更智能的方式重做,一方面为“智能体运行环境”提供基础设施,另一方面用“AI for System/AI for OS”改造系统优化、运维与漏洞响应等流程。

 

杨勇把这条演进路比作“自动驾驶分级”——从需要人类接管的辅助到更高程度的自主,取决于基础模型能力以及哪些系统服务适合用智能化方式重写。他也强调今天的大模型推理天然是分布式的,因此“系统观”和全链路协同比概念上的“再定义”更重要。

 

围绕这条务实路线,给出了几件“抓手”。

 

其一是 PD(Prefill/Decode)分离与投机解码。杨勇提到,这些优化已经在上游产品中被当作关键特性发布,而其中“PD 分离”等由龙蜥社区开源贡献到上游。用他的话说,这类能力不是为了噱头,而是“把端到端的性能和成本问题真正按场景拆开解决”。

 

其二是 CPU + GPU 协同。苏志远强调“不要让 CPU 的算力闲着”:在不改变模型语义的前提下,把部分推理工作(例如 CPU decode)从 GPU 上卸下来,同时在 GPU 侧做好显存调度与缓存优化,避免 GPU 成为单点瓶颈。“协同”的目标不是把某一层压到极致,而是把整机算力“拧成一股绳”。

 

其三是多元算力与异构优化的“减复杂”。苏志远把“适配难点”界定为生态复杂度:硬件侧通过 OEM 规范OCP 实践先把一致性打牢;软件侧在软件版本、组件与接口上统一选型,降低升级与适配的连锁成本。

 

龙蜥智算联盟技术储备方面,杨勇提到他们在 VRM、SGR 等方向的持续投入,投机解码、PD 分离这类能力已进入上游产品发布的关键特性清单,“有我们的开源直接贡献”。

 

朱其罡介绍,FlagOS 社区以全开源方式打造“AI 基础软件核心组件”(包括算子库、编译器等),算子数量已超 200,其中“76%的算子性能超过 CUDA”(社区内部对标数据);在后端适配上,覆盖 18 款加速器;并提供 FlagPerf 做性能测试与跟踪。他强调,这些能力“和操作系统结合起来”,就能支撑“在多种服务器快速跑起多款模型应用”,与龙蜥在 OS/发行版/兼容治理上的工作形成上下游互补。

 

在“抓手”之外,杨勇专门点出一个经常被忽视、却影响部署成败的工程难题——容量规划。不同模型结构(例如 MoE、MLA)对并行策略和卡型的敏感度差异很大,“部署前怎么把性价比算清楚”,目前“只有少数人掌握”。缺了这一步,企业很难在采购与架构阶段就把成本与性能的平衡“算在纸面上”,后续就容易在试错中消耗。

四、组织方式:工作组节奏与“先合后竞”

 

技术路径要落到人和流程上。宋卓提到,社区天然较为松散,效率要靠“目标与节奏”。因此联盟采用工作组推进:每个组确立具体目标与计划,围绕真实生产问题组织讨论与推进,必要时孵化项目,并与成员单位内的落地对齐。成员构成上,有“核心贡献者”,也有“先参与、逐步找到契合点”的单位;高校在其中扮演“探索力量”,与工业界问题对接,把探索拉向落地。

 

在“多社区、多厂商”的生态里,反碎片化必须落在“合”的动作上。杨勇把与其他社区的关系定义为竞合:有竞争,也有合作。关键做法是尽量把优化合入上游主线,让不同发行版“自然继承”,把优化“变成标准化技术”。他提醒,不拥抱开源的私有路线更易造成碎片化;而通过“开源规范与行业对话”,可以在“不压制创新”的前提下降低“无谓差异”。


苏志远从产业协同层面补充到,在相关政策的指导下,五大社区已经统一了内核版本与 200 多个软件包的选型。 与此并行的,是产学研协同:通过技术攻关、协同创新、成果转化,把“模型+系统(云)+芯片”的纵向贯通做成常态,完善开源操作系统生态体系,推动开源技术持续创新。

五、企业价值:更快上线、更稳运营、更低成本

 

工程团队要的不是口号,而是确定性——能上线、能稳定、能算清成本、能过审计。

 

其一,上线时间缩短、集成成本下降。 统一的版本选型与兼容清单、端到端的验证口径,能明显减少集成周期与变更不确定性。像“7.9 内核+并行文件系统-30%”这类隐形坑,一旦沉淀进知识库并配上版本策略,后来者就能直接避开,不必再“摸石头过河”。

 

其二,稳定性与可运维性提升。 把可靠性与运维的工具、方法、流程做成“共同语言”,把“偶发”关进笼子;联盟推进的统一故障管理规范(日志范围、格式与上报、相关性分析)直接改善集群级的定位效率与 RAS 水位。

 

其三,性能/成本更可控,创新转化更快。 宋卓强调“性能是全栈工作”,最终目标落在一句朴素的话上——把每个 token 的真实成本打下来框架-芯片适配平台算子/RAS/异构协同优化,意在减少“低水平重复”,让团队把更多人力投向模型与业务创新;

 

其四,合规/安全与生态可持续。

 把合规扫描法务协作做成流程,把机密计算远程证明做成设施,意味着“可上线”可以等价为“可审计、可托付”。与此同时,依托龙蜥社区的用户群与场景,联盟强调“构建智能计算生态,满足多样化需求”:快速响应、持续支持,减少“单点厂商绑定”的结构性风险。

 

2025-08-15 19:046534

评论

发布
暂无评论

图解 Volatile 原理三

悟空聊架构

volatile 28天写作 悟空聊架构 12月日更 嗅探

架构实战 - 模块六

唐敏

「架构实战营」

在线JSON转Go Bson工具

入门小站

工具

Apache Log4j2远程代码执行漏洞攻击,华为云安全支持检测拦截

华为云开发者联盟

安全 华为云 漏洞 Apache Log4j2

技术架构的战略和战术原则

xcbeyond

28天写作 12月日更

41 K8S之网络策略

穿过生命散发芬芳

k8s 28天写作 12月日更

如何对数组中的对象进行排序

Changing Lin

12月日更

给代码上一份保险

Rayjun

git pre-commit

Gbase8a MPP Cluster 集群管理

南渡北归

gbase8a gbase8a集群管理 gcadmin

Prometheus Exporter (二十三)Slurm Exporter

耳东@Erdong

Prometheus 28天写作 exporter 12月日更 Slurm

Flexagile 弹性敏捷 - 实践篇

RingCentral铃盛

实用机器学习笔记十:机器学习模型

打工人!

AI 算法 学习笔记 机器学习算法 12月日更

Go+ HTTP 客户端教程(5.1)

liuzhen007

28天写作 12月日更

回家

Tiger

28天写作

Android C++系列:Linux网络(四)TCP详解

轻口味

c++ android 28天写作 12月日更

Linux之cd命令

入门小站

目录

Deutsch-Jozsa Algorithm

Si Yuan

量子计算

HHL Algorithm

Si Yuan

量子计算

Flexagile 弹性敏捷 - 文化篇

RingCentral铃盛

Musical.ly 创始人:演化成就伟大的产品

石云升

28天写作 产品创新 12月日更 产品演化

当诗人遇到熟读2600亿中文参数的大模型

脑极体

误删服务器/tmp下的文件之后引发的问题

熊斌

解决方案

将挖洞当作爱好和职业的笑与泪:微软漏洞研究员的自白

网络安全学海

网络安全 信息安全 漏洞扫描 漏洞分析 漏洞挖掘

我们需要一个React框架吗?

RingCentral铃盛

React 框架 分布式应用框架

在 Dart(以及 Flutter)中生成随机字符串的 3 种不同方法【Flutter专题21】

坚果

flutter 28天写作 12月日更

CSS之选择器(三)

Augus

CSS 12月日更

通过接口百度网盘下载文件

为自己带盐

28天写作 百度网盘 12月日更

2021,自动驾驶的“五代十国”

脑极体

Quantum Mechanics Is Different

Si Yuan

量子计算

Flexagile 弹性敏捷 - 理论篇

RingCentral铃盛

Flexagile

WebP,淘宝都在用的图片优化方法

CRMEB

统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”_软件工程_InfoQ_InfoQ精选文章