写点什么

统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

  • 2025-08-15
    北京
  • 本文字数:4183 字

    阅读完需:约 14 分钟

大小:2.06M时长:12:00
统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”

8 月 7 日下午,龙蜥智算基础设施联盟(以下简称“龙蜥智算联盟”)正式成立。场内没有“新概念”的喧嚣,更多是工程师式的朴素目标:把分散在产业链上下游、不同厂商与不同版本之间反复踩过的“坑”,沉淀成可复用的公共能力。“我们希望把一些公共问题,通过技术工作组用更通用的方式解决,让更多企业复用。”龙蜥智算联盟主席宋卓说。

 

眼下 AI 正从试验期迈向规模化生产,企业真正面对的,是多元算力、性能与可靠性、数据安全与合规的综合工程问题。龙蜥选择的路径,是在开源与产业之间搭一座“工程化的桥”:以统一基线、上游合入、工具与流程的标准化,给企业“可上线、能运营、压成本”的确定性。


受访嘉宾

杨勇|龙蜥社区技术委员会主席(阿里云技术软件技术总监)宋卓|龙蜥智算基础设施联盟主席(阿里云高级技术专家)苏志远|浪潮信息系统软件产品部总经理(龙蜥社区技术副主席)朱其罡|FlagOS 社区秘书长

一、为什么是现在:从“能跑”到“可托付”


大模型时代,多元算力并存:CPU、GPU、DPU、FPGA、ASIC 一并上场;芯片厂商各自提供驱动与 SDK,算法开发强依赖配套库,“软烟囱”林立;训练推理走向大规模,内存、存储、网络带宽常遇“天花板”,万卡级集群的故障率与稳定性成为刚性挑战;敏感数据又把隐私与合规的门槛抬得更高。

 

杨勇与苏志远从一线视角把这些宏观问题落回工程细节:版本升级牵一发而动全身、算力异构让集成与运维的复杂度指数上涨、性能和稳定性必须用全栈视角治理,而不是让某一层“硬扛”。

 

苏志远提到,国内外加速器厂商多、软件栈差异大,操作系统一升级、Python、Gcc 版本变化等可能引发适配问题;对企业而言,往往变成“各踩各的坑”。因此龙蜥智算联盟在产业中游搭起“连廊”:把操作系统版本、内核与关键包的选型尽量统一到一条基线,同时把上游加速器与下游应用、高校拉到一张桌面,“把坑先在内部踩完”,减少重复消耗。

 

杨勇从系统视角补上另一半现实:企业需要的是让智能体、让 AI 应用稳定运行的环境。这意味着在操作系统层要集成成熟的推理部署框架,降低部署门槛;也意味着安全与可信必须“内建”。除了在模型与用户交互过程中做加解密,还要建立远程证明能力,让运行环境“可被证明是可信的”。这类能力不该是某家平台的“卖点”,而应成为公共基础设施。

 

“为什么要现在就做”并不抽象。一个案例足以说明普遍性:并行文件系统+ CentOS 7.9 内核导致某客户性能下滑 30%。杨勇回忆,诊断花了很久,修复却很“朴素”——换到合适的 OS 版本即可。真正难的是把原因与路径系统化、知识化,配上可执行的版本策略,避免后来者在另一个场景里重演同样代价。

二、做什么:三件硬事,两条支撑


龙蜥智算联盟采用工作组推进,盯三件“能尽快产生复用价值”的硬事,同时配两条纵向支撑,尽量把“能落地的动作”说清楚。


第一件:测试与兼容性标准化。


建立系统兼容性测试基准,特别是围绕 GPU 兼容性测试形成一致性标准规范,减少 GPU 与不同商业版 OS 的重复适配工作量。龙蜥操作系统装机量已突破 800 万套商业版达 14 个服务客户超 100 万

 

对于 GPU 厂商而言,每做一次对这些商业版的适配,都要经历协调设备、部署系统、设备检测、功能与稳定性测试等流程,并确保相关 AI 软件栈正常运行,“一般需要 3 天左右”。龙蜥智算联盟将通过统一驱动基线测试指南/规范建设,降低适配复杂度与维护成本,实现 AI 硬件与龙蜥操作系统 的“原生适配”,这也是“AI Native OS”的应有之义。

 

第二件:全栈性能分析与优化。


宋卓强调性能是全栈问题;把“抓手”落在开源 AI 框架与国内芯片的适配平台:联合 OS、芯片与模型方,攻关“框架↔芯片”的适配,发布与组内芯片、龙蜥操作系统的最佳适配版本并提供维护支持;在技术工作组(TG)下,围绕算子库优化AI 基础设施 RAS 能力提升CPU 与 GPU 异构算力协同优化展开研究,把系统软件的整体性能做上去。

 

第三件:可靠性相关。


 “规模一上来,偶发就会高频化。”宋卓说。构建统一的故障管理规范,围绕万卡级训练中的高故障率场景,整合整机、系统、GPU 及 AI 业务等上下游相关方,规定 GPU、PCIe Switch 等关键硬件状态与 RAS 信息日志抓取范围与协议,统一日志格式与上报机制,做故障相关性处理,提升集群场景下的统一分析与管理效率,降低信息抓取与根因定位成本

 

纵向支撑之一:开源合规做成“流程能力”。


宋卓介绍,龙蜥智算联盟联合多家企业为生态伙伴提供开源合规咨询;龙蜥社区已经建设了合规检查基础设施,支持代码扫描开源协议合规检查,把“想开源、怕合规”的顾虑压到流程内解决。

 

纵向支撑之二:隐私与可信做成“公共设施”。


杨勇强调,除了交互链路的加解密,还需要把远程证明做成公共基础设施,形成“三方可信的中间人”;苏志远补充,社区已在可信/隐私计算上有积累,并推出一套机密计算端到端框架,用于大模型推理的数据隐私保护。 与上述三件硬事并行,龙蜥智算联盟还把“KABI 白名单维护”作为底层工程的常态化工作:在龙蜥 6.6 与 5.10 内核主线的 KABI 白名单基础上,扫描各 GPU 厂商提供的 RUN/RPM 驱动包,新增所需 KABI 接口,以提升 OS 对新型 GPU 的兼容性。联盟筹备至成立期间,已在 5.10 与 6.6 主线上新增 800+ KABI

三、技术路线与储备


“AI 原生操作系统”该怎么理解?杨勇把学术界工业界的路径分开来谈。

 

学术界确实有人设想用“大模型做操作系统内核”,让内核用自然语言分配资源,但现实门槛极高——推理延迟是毫秒级,内核响应是微秒/亚微秒级,“短期很难落地,成本也不划算”。

 

工业界更可行的路是在 Linux 生态里渐进演进:把系统服务(非内核部分)用更智能的方式重做,一方面为“智能体运行环境”提供基础设施,另一方面用“AI for System/AI for OS”改造系统优化、运维与漏洞响应等流程。

 

杨勇把这条演进路比作“自动驾驶分级”——从需要人类接管的辅助到更高程度的自主,取决于基础模型能力以及哪些系统服务适合用智能化方式重写。他也强调今天的大模型推理天然是分布式的,因此“系统观”和全链路协同比概念上的“再定义”更重要。

 

围绕这条务实路线,给出了几件“抓手”。

 

其一是 PD(Prefill/Decode)分离与投机解码。杨勇提到,这些优化已经在上游产品中被当作关键特性发布,而其中“PD 分离”等由龙蜥社区开源贡献到上游。用他的话说,这类能力不是为了噱头,而是“把端到端的性能和成本问题真正按场景拆开解决”。

 

其二是 CPU + GPU 协同。苏志远强调“不要让 CPU 的算力闲着”:在不改变模型语义的前提下,把部分推理工作(例如 CPU decode)从 GPU 上卸下来,同时在 GPU 侧做好显存调度与缓存优化,避免 GPU 成为单点瓶颈。“协同”的目标不是把某一层压到极致,而是把整机算力“拧成一股绳”。

 

其三是多元算力与异构优化的“减复杂”。苏志远把“适配难点”界定为生态复杂度:硬件侧通过 OEM 规范OCP 实践先把一致性打牢;软件侧在软件版本、组件与接口上统一选型,降低升级与适配的连锁成本。

 

龙蜥智算联盟技术储备方面,杨勇提到他们在 VRM、SGR 等方向的持续投入,投机解码、PD 分离这类能力已进入上游产品发布的关键特性清单,“有我们的开源直接贡献”。

 

朱其罡介绍,FlagOS 社区以全开源方式打造“AI 基础软件核心组件”(包括算子库、编译器等),算子数量已超 200,其中“76%的算子性能超过 CUDA”(社区内部对标数据);在后端适配上,覆盖 18 款加速器;并提供 FlagPerf 做性能测试与跟踪。他强调,这些能力“和操作系统结合起来”,就能支撑“在多种服务器快速跑起多款模型应用”,与龙蜥在 OS/发行版/兼容治理上的工作形成上下游互补。

 

在“抓手”之外,杨勇专门点出一个经常被忽视、却影响部署成败的工程难题——容量规划。不同模型结构(例如 MoE、MLA)对并行策略和卡型的敏感度差异很大,“部署前怎么把性价比算清楚”,目前“只有少数人掌握”。缺了这一步,企业很难在采购与架构阶段就把成本与性能的平衡“算在纸面上”,后续就容易在试错中消耗。

四、组织方式:工作组节奏与“先合后竞”

 

技术路径要落到人和流程上。宋卓提到,社区天然较为松散,效率要靠“目标与节奏”。因此联盟采用工作组推进:每个组确立具体目标与计划,围绕真实生产问题组织讨论与推进,必要时孵化项目,并与成员单位内的落地对齐。成员构成上,有“核心贡献者”,也有“先参与、逐步找到契合点”的单位;高校在其中扮演“探索力量”,与工业界问题对接,把探索拉向落地。

 

在“多社区、多厂商”的生态里,反碎片化必须落在“合”的动作上。杨勇把与其他社区的关系定义为竞合:有竞争,也有合作。关键做法是尽量把优化合入上游主线,让不同发行版“自然继承”,把优化“变成标准化技术”。他提醒,不拥抱开源的私有路线更易造成碎片化;而通过“开源规范与行业对话”,可以在“不压制创新”的前提下降低“无谓差异”。


苏志远从产业协同层面补充到,在相关政策的指导下,五大社区已经统一了内核版本与 200 多个软件包的选型。 与此并行的,是产学研协同:通过技术攻关、协同创新、成果转化,把“模型+系统(云)+芯片”的纵向贯通做成常态,完善开源操作系统生态体系,推动开源技术持续创新。

五、企业价值:更快上线、更稳运营、更低成本

 

工程团队要的不是口号,而是确定性——能上线、能稳定、能算清成本、能过审计。

 

其一,上线时间缩短、集成成本下降。 统一的版本选型与兼容清单、端到端的验证口径,能明显减少集成周期与变更不确定性。像“7.9 内核+并行文件系统-30%”这类隐形坑,一旦沉淀进知识库并配上版本策略,后来者就能直接避开,不必再“摸石头过河”。

 

其二,稳定性与可运维性提升。 把可靠性与运维的工具、方法、流程做成“共同语言”,把“偶发”关进笼子;联盟推进的统一故障管理规范(日志范围、格式与上报、相关性分析)直接改善集群级的定位效率与 RAS 水位。

 

其三,性能/成本更可控,创新转化更快。 宋卓强调“性能是全栈工作”,最终目标落在一句朴素的话上——把每个 token 的真实成本打下来框架-芯片适配平台算子/RAS/异构协同优化,意在减少“低水平重复”,让团队把更多人力投向模型与业务创新;

 

其四,合规/安全与生态可持续。

 把合规扫描法务协作做成流程,把机密计算远程证明做成设施,意味着“可上线”可以等价为“可审计、可托付”。与此同时,依托龙蜥社区的用户群与场景,联盟强调“构建智能计算生态,满足多样化需求”:快速响应、持续支持,减少“单点厂商绑定”的结构性风险。

 

2025-08-15 19:046

评论

发布
暂无评论

从-99打造Sentinel高可用集群限流中间件

艾小仙

Java 高可用 sentinel 集群限流

IDC:阿里云稳居中国大数据平台公有云市场第一位

阿里云大数据AI技术

阿里云

《中国综合算力指数》《中国算力白皮书》《中国存力白皮书》《中国运力白皮书》在首届算力大会上重磅发出

GPU算力

化繁为简,聊一聊复制状态机系统架构抽象

阿里技术

数据库 架构

大数据开发,Hadoop Spark太重?你试试esProc SPL

华为云开发者联盟

大数据 开源 后端

使用python获取浏览器收藏夹和历史浏览记录,然后可以...

技能实验室

签约计划第三季

《2022 年上半年全球独角兽企业发展研究报告》发布——DEMO WORLD世界创新峰会圆满落幕

创业邦

深入聊聊Linux五种IO模型

C++后台开发

epoll 网络模型 I/O模型 C/C++后台开发 C/C++开发

如何在Linux (CentOS7.3) 下安装JDK1.8?【一篇文章教会你】

Bug终结者

java; Linux Kenel 8月月更

开发者独立搭建一个跨模态搜索应用有多难?

Jina AI

深度学习 云原生 神经搜索 跨模态应用 多模态数据

快速打造安全的车联网平台

Geek_99967b

小程序

Mybatis中#{}和${}的区别

开发微hkkf5566

如何通过使用“缓存”相关技术,解决“高并发”的业务场景案例?

冉然学Java

高并发 java; 单线程 redis'

基于 Next.js实现在线Excel

葡萄城技术团队

前端 在线excel nextjs 表格 控件

中大型商业银行堡垒机升级改造就用行云管家!必看!

行云管家

信息安全 银行 堡垒机 IT安全

《分布式云最佳实践》分论坛,8月11日深圳见

阿里云弹性计算

分布式云 飞天 数字化升级 一云多形态

Pisanix v0.2.0 发布|新增动态读写分离支持

SphereEx

数据库 开源 ShardingSphere SphereEx

SAP ABAP SteamPunk 蒸汽朋克的最新进展 - 嵌入式蒸汽朋克

汪子熙

云原生 Cloud 云平台 SAP 8月月更

攻防视角下,初创企业安全实战经验分享

声网

网络安全

Spring之JDK动态代理与CGLIB动态代理

echoes

5种kafka消费端性能优化方法

华为云开发者联盟

大数据 kafka 后端 MRS

面渣逆袭:MySQL六十六问,两万字+五十图详解

三分恶

MySQL 8月月更

直播系统开发——直播间架构的设计及难点分析

开源直播系统源码

软件开发 语聊房 语音聊天源码 直播系统开发

2022年7月国产数据库大事记-墨天轮

墨天轮

数据库 腾讯云 GaussDB 国产数据库 KingBase

如何防止重复下单?

三分恶

8月月更

重构指标之如何监控代码圈复杂度

京东科技开发者

测试 重构 软件重构 分布式应用软件

兆骑科创创新创业大赛活动举办,线上直播路演,投融资对接

兆骑科创凤阁

Vue3 初探

怀府风

百度APP Android包体积优化实践(三)资源优化

百度Geek说

Andriod

HTTP和HTTPS的区别

开发微hkkf5566

统一、优化、可信:龙蜥智算联盟要把 AI 落地的“公共坑”变成“公共能力”_软件工程_InfoQ_InfoQ精选文章