写点什么

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

  • 2024-01-02
    北京
  • 本文字数:3727 字

    阅读完需:约 12 分钟

大小:1.85M时长:10:45
AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

自 2020 年 12 月 CentOS 宣布停止维护后,中国服务器操作系统市场得到了新一轮的发展机遇。日前发布的《国产服务器操作系统发展报告(2023)》中提到,目前国内已出现多个较为成熟的国产服务器操作系统,产业步入 2.0 时代,面向云计算、智能计算等方向进化。根据中国信通院最新发布的用户调研显示,国内服务器操作系统逐渐成为各行业替换首选,其中,用户意愿迁移至龙蜥操作系统的比例达到 53%,位居首位。



近日,在主题为“云智融合·共筑未来”的 2023 龙蜥操作系统大会上,浪潮信息、Intel、中兴通讯成为龙蜥社区副理事长单位。中国科学院院士梅宏指出,龙蜥社区采用了开放中立的治理理念,社区正由单引擎,转变为由阿里云、浪潮信息、统信软件等多家企业共同治理的新格局,这种共同治理模式能够更好地激励所有参与者,促进社区成员更好地发挥积极性、主观能动性,为龙蜥社区做出更大的贡献。希望龙蜥在未来能够按照现在设想的治理模式和已经形成的基础,获得更进一步的发展。

 

龙蜥社区副理事长张东表示,智算时代,算力产业呈现出算力形态多元异构、算力供给服务化、算力应用智能化的新发展趋势,需要以应用为导向,以系统设计为核心,从系统的角度出发,真正让不同架构的技术、产品和相应的生态融合起来。而达成这个目标的一大关键,就是要推动系统软件的进阶,实现多元算力的协同优化,云原生应用场景支撑优化以及系统软件与 AI 的深度双向融合。

机遇与挑战并存,中国服务器操作系统加速进化

 

CentOS 的停服为中国服务器操作系统市场带来了新的发展机遇,近几年,以龙蜥、欧拉为代表的中国服务器操作系统迅速崛起,在千行百业中得到了广泛应用,并通过打造开源社区的形式使得生态进一步繁荣。

 

技术路线上,龙蜥操作系统将构建“1+3”能力模型,遵照 1 个“分层分类”科学理论的去中心化协同演进的技术路线,以“用好开源、做深开源、自主创新”为核心出发点,长期投入研发,打造“供应链安全”、“开源标准”和“云原生+AI”三位一体的下一代操作系统。

 

目前,龙蜥社区拥有超过 800 家生态伙伴,基于社区操作系统发行了超过 12 款针对下游的衍生版,同时龙蜥操作系统服务器装机量现已超过 600 万,服务了金融、通信、能源、交通等众多行业超过 80 多万用户。欧拉社区已吸引 1300 多家头部企业、研究机构和高校加入,汇聚 16800 多名开源贡献者,累计装机量已超过 610 万套。

 

虽然近几年中国服务器操作系统进入发展快车道,但与海外竞争对手相比仍存在一定的差距,生态建设仍是当前中国服务器操作系统的重要一环,操作系统社区需要在生态建设上持续投入,共同推动产业进一步发展。此外,随着 AI 技术得到广泛应用,操作系统需要不断创新,加速智能化,以更好地满足新的应用需求。

操作系统生态建设路径:技术生态与商业生态齐发展

 

生态是操作系统的根本。在计算机系统层次结构中,操作系统起着承上启下的重要作用,其介于硬件与应用软件之间,控制并协调多个任务的活动。这也意味着,操作系统需要与各种不同的 CPU、GPU 和其他硬件驱动进行对接。从技术上来看,构建操作系统生态的难点在于如何实现技术上的对接,并让所有参与方都在统一的框架下工作。

 

以龙蜥社区为例,阿里云基础软件部副总裁、龙蜥社区理事长马涛表示,龙蜥社区希望通过同源异构的方式支持国内外的所有 CPU。然而一些大型 CPU 厂商通常有自己的操作系统,这些操作系统在内核版本和工具上可能存在差异,这给应用适配和生态建设带来了很大的困难。龙蜥社区现已与主流硬件厂商达成合作,希望能够建立统一标准,降低用户使用成本。

 

从软件层面看,操作系统位于承上启下的中间层,能够影响到所有企业的利益。如果一个社区无法为所有参与操作系统生态的企业找到利益点,生态建设也将难以取得成功。因此,除了技术生态,操作系统社区还需要关注商业生态,让社区参与者能够形成自己的商业闭环,并从闭环中持续获得收益。这也是一件非常有挑战性的事情。

 

当前,我国计算产业体系仍然建立在国外的技术体系之上,要想在算力产业中形成一套完全自主的技术体系,还有很长的路要走。而社区为构建生态提供了一个更好的环境——社区可以让单一厂商无法吸引的合作伙伴得以聚集。在社区模式下,大家是平等的,为社区做贡献并获得反馈。这种模式下可能比单一厂商仅靠商业合作更能吸引合作伙伴。

 

张东认为,要使社区成功,有两个前提条件:一是参与社区的所有厂商能够获得收益;二是社区能够为厂商参与者提供更好的支持,在发行版、芯片、服务器等方面提供更多的帮助。只有这样,才能让各方都愿意参与进来。

 

龙蜥社区将开放、开源、共享、共治作为社区发展的核心原则。在这一原则的推动下,龙蜥快速成长为中国最具影响力的开源操作系统社区。据介绍,龙蜥社区目前由阿里云、统信软件、英特尔、浪潮信息等 24 家理事单位共同治理,超过 800 家来自芯片、软件、整机等覆盖操作系统全产业链的合作伙伴参与生态共建。

 

作为龙蜥社区新晋副理事长单位,浪潮信息在过去 2 年中积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设。其中,基于龙蜥操作系统开发的商业衍生版云峦 KeyarchOS 在一云多芯、人工智能、虚拟化、云原生等方面都得到了增强,已实现规模化部署。未来,浪潮信息将持续加大对龙蜥社区的投入,联合产业链上下游增强软硬协同创新,共同推动龙蜥操作系统生态的繁荣发展。

AI 时代,操作系统迈向智能化

 

在 AI 时代,操作系统正在经历一场前所未有的变革。随着 AI 技术的飞速发展以及 AI 应用的广泛落地,操作系统需要与各种智能化应用进行深度融合,以提供更智能化的服务。这也对操作系统提出了新的要求——操作系统作为底层技术,需要积极探索如何与 AI 相融合,以提升系统的智能化水平和用户体验。

 

马涛表示,操作系统最终是为了用户而设计的,因此需要通过 AI 来帮助最终用户更高效地使用操作系统。这涉及到两个视角:研发视角和用户视角。对于用户视角而言,服务器操作系统与桌面操作系统的一个主要区别在于它是为企业级应用而设计的,通常会有运维人员负责管理,需要通过 AI 快速定位问题、找到问题的根源或进行智能运维。“我们正在与运维联盟一起探索如何使用 AI 进行大规模集群化和智能化的运维。这对于服务器操作系统非常重要,因为对于个人或 PC 用户来说可能不是问题,但对于运营数百台甚至数万台电脑的大型公司来说却是关键所在。”

 

其中,不仅需要考虑 AI For System(操作系统自身的智能化),还需要思考如何通过 System For AI 来进行优化。从研发和测试效率的角度来看,实现这一目标有几个重要的路径。第一,AI 可以用于操作系统开发或测试,以更有效地提高程序员的效率。许多公司都在尝试这种方法,因为内核或操作系统中存在大量的 Magic number,这些数字过去都是基于经验设计的。因此,需要采用基于机器学习和大规模训练的智能调优方法来帮助程序员和研发团队更好地调整系统。这有助于提高研发和测试的效率。

 

浪潮信息系统软件部总经理苏志远提到,最典型的例子是使能多元的算力和芯片。表面上看,这些芯片厂商已经提供了完善的解决方案,但实际上,当企业在实际应用中测试它们的性能时,会发现其中存在许多需要解决的问题。这些问题主要集中在驱动方面,甚至涉及到与驱动的交互。只有依赖芯片厂商或部件厂商提供的支持,才能有效地解决这些问题。

 

“操作系统团队和芯片团队需要紧密合作,因为芯片厂商在测试时可能只关注单一场景。而我们希望与他们合作,在我们的场景下发现问题,并支持整个智算过程。作为整机厂商,我们与上层的应用和下层的芯片都有关联。在系统方面有许多工作需要做,特别是在系统使能和优化方面。另外,为了使芯片能够更好地运行,类似于 CXL 的分层内存优化等技术也是必要的。这些技术需要系统层面的优化,以实现更好的性能。实际上,早在内存管理时期,就已经有了类似的优化概念。内存永远是不够的,因此我们需要系统层面的工作来更高效地使用内存。”苏志远总结道。

 

在智算方面,单机训练只是基础,真正的挑战在于将所有机器连接起来进行训练。当处理动辄数百 T 的数据时,吞吐量和时延成为关键问题。系统层面需要对网络系统和 IO 读写进行优化,甚至需要利用最新的 SMC-RDMA 等技术来提升系统能力,以确保训练的效率和速度。

 

除了集成层面的优化,将数据、调优和敏捷开发过程融合在一起也非常重要。此外,可观测性和运维能力也是关键因素。在 AI 应用中,由于容器化技术的普及,一台机器上可以轻松运行数百个容器。在数千台机器的规模下,如何有效地管理和监控这些容器成为了一个重要的系统层面的问题。

 

总的来说,智算操作系统的核心在于解决如何在 System For AI 的框架下实现高效的使能、优化和集成。同时,可观测性和运维能力也是确保整个系统稳定、高效运行的关键因素。对于 System For AI,阿里云和浪潮信息等公司都在持续进行相关研究。这涉及到异构算力的调度、CPU 能力的最大化,以及模型的优化,使其更好地适应算力。这些研究不仅在社区中进行,而且得到了社区理事单位如阿里云和浪潮信息的支持。“坦率地说,这些研究可以使阿里云或浪潮信息的产品更具竞争力,因此我们会坚定地在这个领域继续探索。”马涛说道。

2024-01-02 14:174688

评论

发布
暂无评论
发现更多内容

你的登录接口真的安全吗?快看看你有没有中招!

xcbeyond

安全性 8月日更

交易所市值管理机器人开发

Geek_23f0c3

去中心化交易所系统开发 市值管理机器人系统开发 做市机器人 去中心化市值管理机器人

超级人脉:让巴菲特老爷子告诉你圈子的重要性

非著名程序员

人脉 认知提升 思维 8月日更

漏洞挖掘的快乐你想象不到

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

数据同步系统重构实践

Qunar技术沙龙

数据库 ES canal 数据同步 Kafk

Python代码阅读(第10篇):随机打乱列表元素

Felix

Python 编程 Code Programing 阅读代码

DAPP智能合约搭建|DAPP波场智能合约开发

量化系统19942438797

智能合约 dapp

稳了!工业质检蝉联第一

百度大脑

智能制造

数据上报方式是否存在最优解?

神策技术社区

编程 数据

从小白程序员到大厂高级技术专家我看过哪些书籍?

冰河

学习 程序员 面试 程序人生

MySQL 字段NOT NULL

一个大红包

8月日更

架构实战营 毕业总结

Dylan

架构实战营

运用上游思维的七个思路

石云升

读书笔记 8月日更 上游思维

学习笔记: JPA与Hibernate

yhrivory

数据库 hibernate jpa ORM spring data

JAVA对于文件IO操作的支持

卢卡多多

Java 文件 io 8月日更

面向对象的原则是普遍适用么?

escray

学习 极客时间 如何落地业务建模 8月日更

一个小而美的 Swift 框架:Then

fuyoufang

swift iOS Developer 8月日更

事事请示是不靠谱的表现

boshi

团队管理

Linux云计算-使用 MyCat 实现 MySQL 主从读写分离

学神来啦

MySQL 数据库 Linux 运维

云原生-工作流引擎Zeebe

QiLab

云原生 k8s cncf BPM zeebe

你的日志打印对了么?

神策技术社区

数据分析 日志

vue入门:简单指令介绍

小鲍侃java

8月日更

手势事件采集究竟有多难?

神策技术社区

ios 手势

深耕基础软件,华为开源加速“新全球化

科技热闻

【音视频】弱网下实时视频的极限通信

声网

音视频 视频处理 视频压缩

一群人的战斗

神策技术社区

编程 代码

《程序员修炼之道 - 从小工到专家》吐血解读

博文视点Broadview

借助云网融合优势,某省运营商打造下一个十年增长引擎

BoCloud博云

云管理

如何在FL Studio中对整首歌曲音量进行调整

懒得勤快

区块链交易所搭建,币币交易系统搭建

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一_操作系统_凌敏_InfoQ精选文章