2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

  • 2024-01-02
    北京
  • 本文字数:3727 字

    阅读完需:约 12 分钟

大小:1.85M时长:10:45
AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

自 2020 年 12 月 CentOS 宣布停止维护后,中国服务器操作系统市场得到了新一轮的发展机遇。日前发布的《国产服务器操作系统发展报告(2023)》中提到,目前国内已出现多个较为成熟的国产服务器操作系统,产业步入 2.0 时代,面向云计算、智能计算等方向进化。根据中国信通院最新发布的用户调研显示,国内服务器操作系统逐渐成为各行业替换首选,其中,用户意愿迁移至龙蜥操作系统的比例达到 53%,位居首位。



近日,在主题为“云智融合·共筑未来”的 2023 龙蜥操作系统大会上,浪潮信息、Intel、中兴通讯成为龙蜥社区副理事长单位。中国科学院院士梅宏指出,龙蜥社区采用了开放中立的治理理念,社区正由单引擎,转变为由阿里云、浪潮信息、统信软件等多家企业共同治理的新格局,这种共同治理模式能够更好地激励所有参与者,促进社区成员更好地发挥积极性、主观能动性,为龙蜥社区做出更大的贡献。希望龙蜥在未来能够按照现在设想的治理模式和已经形成的基础,获得更进一步的发展。

 

龙蜥社区副理事长张东表示,智算时代,算力产业呈现出算力形态多元异构、算力供给服务化、算力应用智能化的新发展趋势,需要以应用为导向,以系统设计为核心,从系统的角度出发,真正让不同架构的技术、产品和相应的生态融合起来。而达成这个目标的一大关键,就是要推动系统软件的进阶,实现多元算力的协同优化,云原生应用场景支撑优化以及系统软件与 AI 的深度双向融合。

机遇与挑战并存,中国服务器操作系统加速进化

 

CentOS 的停服为中国服务器操作系统市场带来了新的发展机遇,近几年,以龙蜥、欧拉为代表的中国服务器操作系统迅速崛起,在千行百业中得到了广泛应用,并通过打造开源社区的形式使得生态进一步繁荣。

 

技术路线上,龙蜥操作系统将构建“1+3”能力模型,遵照 1 个“分层分类”科学理论的去中心化协同演进的技术路线,以“用好开源、做深开源、自主创新”为核心出发点,长期投入研发,打造“供应链安全”、“开源标准”和“云原生+AI”三位一体的下一代操作系统。

 

目前,龙蜥社区拥有超过 800 家生态伙伴,基于社区操作系统发行了超过 12 款针对下游的衍生版,同时龙蜥操作系统服务器装机量现已超过 600 万,服务了金融、通信、能源、交通等众多行业超过 80 多万用户。欧拉社区已吸引 1300 多家头部企业、研究机构和高校加入,汇聚 16800 多名开源贡献者,累计装机量已超过 610 万套。

 

虽然近几年中国服务器操作系统进入发展快车道,但与海外竞争对手相比仍存在一定的差距,生态建设仍是当前中国服务器操作系统的重要一环,操作系统社区需要在生态建设上持续投入,共同推动产业进一步发展。此外,随着 AI 技术得到广泛应用,操作系统需要不断创新,加速智能化,以更好地满足新的应用需求。

操作系统生态建设路径:技术生态与商业生态齐发展

 

生态是操作系统的根本。在计算机系统层次结构中,操作系统起着承上启下的重要作用,其介于硬件与应用软件之间,控制并协调多个任务的活动。这也意味着,操作系统需要与各种不同的 CPU、GPU 和其他硬件驱动进行对接。从技术上来看,构建操作系统生态的难点在于如何实现技术上的对接,并让所有参与方都在统一的框架下工作。

 

以龙蜥社区为例,阿里云基础软件部副总裁、龙蜥社区理事长马涛表示,龙蜥社区希望通过同源异构的方式支持国内外的所有 CPU。然而一些大型 CPU 厂商通常有自己的操作系统,这些操作系统在内核版本和工具上可能存在差异,这给应用适配和生态建设带来了很大的困难。龙蜥社区现已与主流硬件厂商达成合作,希望能够建立统一标准,降低用户使用成本。

 

从软件层面看,操作系统位于承上启下的中间层,能够影响到所有企业的利益。如果一个社区无法为所有参与操作系统生态的企业找到利益点,生态建设也将难以取得成功。因此,除了技术生态,操作系统社区还需要关注商业生态,让社区参与者能够形成自己的商业闭环,并从闭环中持续获得收益。这也是一件非常有挑战性的事情。

 

当前,我国计算产业体系仍然建立在国外的技术体系之上,要想在算力产业中形成一套完全自主的技术体系,还有很长的路要走。而社区为构建生态提供了一个更好的环境——社区可以让单一厂商无法吸引的合作伙伴得以聚集。在社区模式下,大家是平等的,为社区做贡献并获得反馈。这种模式下可能比单一厂商仅靠商业合作更能吸引合作伙伴。

 

张东认为,要使社区成功,有两个前提条件:一是参与社区的所有厂商能够获得收益;二是社区能够为厂商参与者提供更好的支持,在发行版、芯片、服务器等方面提供更多的帮助。只有这样,才能让各方都愿意参与进来。

 

龙蜥社区将开放、开源、共享、共治作为社区发展的核心原则。在这一原则的推动下,龙蜥快速成长为中国最具影响力的开源操作系统社区。据介绍,龙蜥社区目前由阿里云、统信软件、英特尔、浪潮信息等 24 家理事单位共同治理,超过 800 家来自芯片、软件、整机等覆盖操作系统全产业链的合作伙伴参与生态共建。

 

作为龙蜥社区新晋副理事长单位,浪潮信息在过去 2 年中积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设。其中,基于龙蜥操作系统开发的商业衍生版云峦 KeyarchOS 在一云多芯、人工智能、虚拟化、云原生等方面都得到了增强,已实现规模化部署。未来,浪潮信息将持续加大对龙蜥社区的投入,联合产业链上下游增强软硬协同创新,共同推动龙蜥操作系统生态的繁荣发展。

AI 时代,操作系统迈向智能化

 

在 AI 时代,操作系统正在经历一场前所未有的变革。随着 AI 技术的飞速发展以及 AI 应用的广泛落地,操作系统需要与各种智能化应用进行深度融合,以提供更智能化的服务。这也对操作系统提出了新的要求——操作系统作为底层技术,需要积极探索如何与 AI 相融合,以提升系统的智能化水平和用户体验。

 

马涛表示,操作系统最终是为了用户而设计的,因此需要通过 AI 来帮助最终用户更高效地使用操作系统。这涉及到两个视角:研发视角和用户视角。对于用户视角而言,服务器操作系统与桌面操作系统的一个主要区别在于它是为企业级应用而设计的,通常会有运维人员负责管理,需要通过 AI 快速定位问题、找到问题的根源或进行智能运维。“我们正在与运维联盟一起探索如何使用 AI 进行大规模集群化和智能化的运维。这对于服务器操作系统非常重要,因为对于个人或 PC 用户来说可能不是问题,但对于运营数百台甚至数万台电脑的大型公司来说却是关键所在。”

 

其中,不仅需要考虑 AI For System(操作系统自身的智能化),还需要思考如何通过 System For AI 来进行优化。从研发和测试效率的角度来看,实现这一目标有几个重要的路径。第一,AI 可以用于操作系统开发或测试,以更有效地提高程序员的效率。许多公司都在尝试这种方法,因为内核或操作系统中存在大量的 Magic number,这些数字过去都是基于经验设计的。因此,需要采用基于机器学习和大规模训练的智能调优方法来帮助程序员和研发团队更好地调整系统。这有助于提高研发和测试的效率。

 

浪潮信息系统软件部总经理苏志远提到,最典型的例子是使能多元的算力和芯片。表面上看,这些芯片厂商已经提供了完善的解决方案,但实际上,当企业在实际应用中测试它们的性能时,会发现其中存在许多需要解决的问题。这些问题主要集中在驱动方面,甚至涉及到与驱动的交互。只有依赖芯片厂商或部件厂商提供的支持,才能有效地解决这些问题。

 

“操作系统团队和芯片团队需要紧密合作,因为芯片厂商在测试时可能只关注单一场景。而我们希望与他们合作,在我们的场景下发现问题,并支持整个智算过程。作为整机厂商,我们与上层的应用和下层的芯片都有关联。在系统方面有许多工作需要做,特别是在系统使能和优化方面。另外,为了使芯片能够更好地运行,类似于 CXL 的分层内存优化等技术也是必要的。这些技术需要系统层面的优化,以实现更好的性能。实际上,早在内存管理时期,就已经有了类似的优化概念。内存永远是不够的,因此我们需要系统层面的工作来更高效地使用内存。”苏志远总结道。

 

在智算方面,单机训练只是基础,真正的挑战在于将所有机器连接起来进行训练。当处理动辄数百 T 的数据时,吞吐量和时延成为关键问题。系统层面需要对网络系统和 IO 读写进行优化,甚至需要利用最新的 SMC-RDMA 等技术来提升系统能力,以确保训练的效率和速度。

 

除了集成层面的优化,将数据、调优和敏捷开发过程融合在一起也非常重要。此外,可观测性和运维能力也是关键因素。在 AI 应用中,由于容器化技术的普及,一台机器上可以轻松运行数百个容器。在数千台机器的规模下,如何有效地管理和监控这些容器成为了一个重要的系统层面的问题。

 

总的来说,智算操作系统的核心在于解决如何在 System For AI 的框架下实现高效的使能、优化和集成。同时,可观测性和运维能力也是确保整个系统稳定、高效运行的关键因素。对于 System For AI,阿里云和浪潮信息等公司都在持续进行相关研究。这涉及到异构算力的调度、CPU 能力的最大化,以及模型的优化,使其更好地适应算力。这些研究不仅在社区中进行,而且得到了社区理事单位如阿里云和浪潮信息的支持。“坦率地说,这些研究可以使阿里云或浪潮信息的产品更具竞争力,因此我们会坚定地在这个领域继续探索。”马涛说道。

2024-01-02 14:174761

评论

发布
暂无评论
发现更多内容

知识经济时代,企业该如何进行知识管理?

Baklib

效率工具 知识管理 企业 知识 知识经济

文本识别与检测-【技术白皮书】第三章-第二节: 基于分割的场景文本检测方法

合合技术团队

人工智能 神经网络 文字识别 自然语言理解

开源日志收集 肿么选型??

CTO技术共享

个人成长 log 10月月更

分布式事务-引出分布式事务

zarmnosaj

10月月更

真·workshop,来自联通、移动、爱奇艺等14位资深专家与你面对面聊云原生硬核技术|2022云栖大会

OpenAnolis小助手

云原生 虚拟化 云栖大会 龙蜥社区 专场

工作四年,靠这份Java面试宝典,跳槽到阿里,月薪直涨12K

收到请回复

Java 面试 语言 & 开发 金九银十

邂逅Vue3

渔戈

前端 Vue3 10月月更

Vue3的基本指令

渔戈

前端 Vue3 10月月更

navicat的使用与数据库的DML操作

渔戈

MySQL SQL语句 10月月更

SAP | abap的数据对象

暮春零贰

SAP 10月月更 数据对象

手把手教你成为荣耀开发者:如何进行注册与认证?

荣耀开发者服务平台

开发者 手机 新手指南 荣耀 honor

Vue模板是怎样编译的

yyds2026

Vue

长安链源码分析之网络模块 net-liquid(7)

手把手完成智慧路灯的开发,完成设备上云【华为云IoT】

DS小龙哥

10月月更

ElasticSearch + Kibana for Kubernetes 硬气功实践 2

CTO技术共享

elasticsearch 个人成长 10月月更

Vue组件是怎样挂载的

yyds2026

Vue

长安链源码分析之网络模块 net-liquid(6)

SUSE 推出业界首个自适应 Linux 平台原型

Anthony

Linux 自适应

团队实现知识管理,先从知识库做起!

Baklib

效率 效率工具 知识管理 团队 知识

EMQ x 阿里云:云上高效构建,IoT 数据一站处理|直播预告

阿里云弹性计算

物联网 IoT 计算巢

外包和自研应该选择呢?教你三招选出最合适自己的平台

千锋IT教育

30+场技术论坛 1000+科技新品发布 今年云栖大会我们关注什么?

阿里技术

云栖大会

分析服务用多维度、多场景的用户分层,带您深度玩转精细化游戏运营

HarmonyOS SDK

分析

华为架构师亲手操刀,世界五百强都在用的kafka也就那么回事

程序知音

Java kafka 架构 后端技术

Kubernetes fror Flink 硬气功实践

CTO技术共享

flink 个人成长 10月月更

随需应变,快速开发工作流

力软低代码开发平台

秒云入选2022年成都市新经济梯度培育企业

MIAOYUN

成都市新经济梯度培育企业

NFT卡牌链游系统开发Web3游戏技术

薇電13242772558

dapp web3

ERP外贸管理系统是什么?哪家好?如何选?

优秀

外贸管理 ERP系统 ERP外贸管理系统

打破汽车零部件企业供应链壁垒,数商云SCM供应链系统实现一体化采购协同

数商云

数字化转型 供应链 企业数字化

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一_操作系统_凌敏_InfoQ精选文章