阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

  • 2024-01-02
    北京
  • 本文字数:3727 字

    阅读完需:约 12 分钟

大小:1.85M时长:10:45
AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一

自 2020 年 12 月 CentOS 宣布停止维护后,中国服务器操作系统市场得到了新一轮的发展机遇。日前发布的《国产服务器操作系统发展报告(2023)》中提到,目前国内已出现多个较为成熟的国产服务器操作系统,产业步入 2.0 时代,面向云计算、智能计算等方向进化。根据中国信通院最新发布的用户调研显示,国内服务器操作系统逐渐成为各行业替换首选,其中,用户意愿迁移至龙蜥操作系统的比例达到 53%,位居首位。



近日,在主题为“云智融合·共筑未来”的 2023 龙蜥操作系统大会上,浪潮信息、Intel、中兴通讯成为龙蜥社区副理事长单位。中国科学院院士梅宏指出,龙蜥社区采用了开放中立的治理理念,社区正由单引擎,转变为由阿里云、浪潮信息、统信软件等多家企业共同治理的新格局,这种共同治理模式能够更好地激励所有参与者,促进社区成员更好地发挥积极性、主观能动性,为龙蜥社区做出更大的贡献。希望龙蜥在未来能够按照现在设想的治理模式和已经形成的基础,获得更进一步的发展。

 

龙蜥社区副理事长张东表示,智算时代,算力产业呈现出算力形态多元异构、算力供给服务化、算力应用智能化的新发展趋势,需要以应用为导向,以系统设计为核心,从系统的角度出发,真正让不同架构的技术、产品和相应的生态融合起来。而达成这个目标的一大关键,就是要推动系统软件的进阶,实现多元算力的协同优化,云原生应用场景支撑优化以及系统软件与 AI 的深度双向融合。

机遇与挑战并存,中国服务器操作系统加速进化

 

CentOS 的停服为中国服务器操作系统市场带来了新的发展机遇,近几年,以龙蜥、欧拉为代表的中国服务器操作系统迅速崛起,在千行百业中得到了广泛应用,并通过打造开源社区的形式使得生态进一步繁荣。

 

技术路线上,龙蜥操作系统将构建“1+3”能力模型,遵照 1 个“分层分类”科学理论的去中心化协同演进的技术路线,以“用好开源、做深开源、自主创新”为核心出发点,长期投入研发,打造“供应链安全”、“开源标准”和“云原生+AI”三位一体的下一代操作系统。

 

目前,龙蜥社区拥有超过 800 家生态伙伴,基于社区操作系统发行了超过 12 款针对下游的衍生版,同时龙蜥操作系统服务器装机量现已超过 600 万,服务了金融、通信、能源、交通等众多行业超过 80 多万用户。欧拉社区已吸引 1300 多家头部企业、研究机构和高校加入,汇聚 16800 多名开源贡献者,累计装机量已超过 610 万套。

 

虽然近几年中国服务器操作系统进入发展快车道,但与海外竞争对手相比仍存在一定的差距,生态建设仍是当前中国服务器操作系统的重要一环,操作系统社区需要在生态建设上持续投入,共同推动产业进一步发展。此外,随着 AI 技术得到广泛应用,操作系统需要不断创新,加速智能化,以更好地满足新的应用需求。

操作系统生态建设路径:技术生态与商业生态齐发展

 

生态是操作系统的根本。在计算机系统层次结构中,操作系统起着承上启下的重要作用,其介于硬件与应用软件之间,控制并协调多个任务的活动。这也意味着,操作系统需要与各种不同的 CPU、GPU 和其他硬件驱动进行对接。从技术上来看,构建操作系统生态的难点在于如何实现技术上的对接,并让所有参与方都在统一的框架下工作。

 

以龙蜥社区为例,阿里云基础软件部副总裁、龙蜥社区理事长马涛表示,龙蜥社区希望通过同源异构的方式支持国内外的所有 CPU。然而一些大型 CPU 厂商通常有自己的操作系统,这些操作系统在内核版本和工具上可能存在差异,这给应用适配和生态建设带来了很大的困难。龙蜥社区现已与主流硬件厂商达成合作,希望能够建立统一标准,降低用户使用成本。

 

从软件层面看,操作系统位于承上启下的中间层,能够影响到所有企业的利益。如果一个社区无法为所有参与操作系统生态的企业找到利益点,生态建设也将难以取得成功。因此,除了技术生态,操作系统社区还需要关注商业生态,让社区参与者能够形成自己的商业闭环,并从闭环中持续获得收益。这也是一件非常有挑战性的事情。

 

当前,我国计算产业体系仍然建立在国外的技术体系之上,要想在算力产业中形成一套完全自主的技术体系,还有很长的路要走。而社区为构建生态提供了一个更好的环境——社区可以让单一厂商无法吸引的合作伙伴得以聚集。在社区模式下,大家是平等的,为社区做贡献并获得反馈。这种模式下可能比单一厂商仅靠商业合作更能吸引合作伙伴。

 

张东认为,要使社区成功,有两个前提条件:一是参与社区的所有厂商能够获得收益;二是社区能够为厂商参与者提供更好的支持,在发行版、芯片、服务器等方面提供更多的帮助。只有这样,才能让各方都愿意参与进来。

 

龙蜥社区将开放、开源、共享、共治作为社区发展的核心原则。在这一原则的推动下,龙蜥快速成长为中国最具影响力的开源操作系统社区。据介绍,龙蜥社区目前由阿里云、统信软件、英特尔、浪潮信息等 24 家理事单位共同治理,超过 800 家来自芯片、软件、整机等覆盖操作系统全产业链的合作伙伴参与生态共建。

 

作为龙蜥社区新晋副理事长单位,浪潮信息在过去 2 年中积极投入社区建设,依托浪潮信息龙蜥联合实验室,在技术创新、标准制定、生态建设、运营推广等多个维度推动社区建设。其中,基于龙蜥操作系统开发的商业衍生版云峦 KeyarchOS 在一云多芯、人工智能、虚拟化、云原生等方面都得到了增强,已实现规模化部署。未来,浪潮信息将持续加大对龙蜥社区的投入,联合产业链上下游增强软硬协同创新,共同推动龙蜥操作系统生态的繁荣发展。

AI 时代,操作系统迈向智能化

 

在 AI 时代,操作系统正在经历一场前所未有的变革。随着 AI 技术的飞速发展以及 AI 应用的广泛落地,操作系统需要与各种智能化应用进行深度融合,以提供更智能化的服务。这也对操作系统提出了新的要求——操作系统作为底层技术,需要积极探索如何与 AI 相融合,以提升系统的智能化水平和用户体验。

 

马涛表示,操作系统最终是为了用户而设计的,因此需要通过 AI 来帮助最终用户更高效地使用操作系统。这涉及到两个视角:研发视角和用户视角。对于用户视角而言,服务器操作系统与桌面操作系统的一个主要区别在于它是为企业级应用而设计的,通常会有运维人员负责管理,需要通过 AI 快速定位问题、找到问题的根源或进行智能运维。“我们正在与运维联盟一起探索如何使用 AI 进行大规模集群化和智能化的运维。这对于服务器操作系统非常重要,因为对于个人或 PC 用户来说可能不是问题,但对于运营数百台甚至数万台电脑的大型公司来说却是关键所在。”

 

其中,不仅需要考虑 AI For System(操作系统自身的智能化),还需要思考如何通过 System For AI 来进行优化。从研发和测试效率的角度来看,实现这一目标有几个重要的路径。第一,AI 可以用于操作系统开发或测试,以更有效地提高程序员的效率。许多公司都在尝试这种方法,因为内核或操作系统中存在大量的 Magic number,这些数字过去都是基于经验设计的。因此,需要采用基于机器学习和大规模训练的智能调优方法来帮助程序员和研发团队更好地调整系统。这有助于提高研发和测试的效率。

 

浪潮信息系统软件部总经理苏志远提到,最典型的例子是使能多元的算力和芯片。表面上看,这些芯片厂商已经提供了完善的解决方案,但实际上,当企业在实际应用中测试它们的性能时,会发现其中存在许多需要解决的问题。这些问题主要集中在驱动方面,甚至涉及到与驱动的交互。只有依赖芯片厂商或部件厂商提供的支持,才能有效地解决这些问题。

 

“操作系统团队和芯片团队需要紧密合作,因为芯片厂商在测试时可能只关注单一场景。而我们希望与他们合作,在我们的场景下发现问题,并支持整个智算过程。作为整机厂商,我们与上层的应用和下层的芯片都有关联。在系统方面有许多工作需要做,特别是在系统使能和优化方面。另外,为了使芯片能够更好地运行,类似于 CXL 的分层内存优化等技术也是必要的。这些技术需要系统层面的优化,以实现更好的性能。实际上,早在内存管理时期,就已经有了类似的优化概念。内存永远是不够的,因此我们需要系统层面的工作来更高效地使用内存。”苏志远总结道。

 

在智算方面,单机训练只是基础,真正的挑战在于将所有机器连接起来进行训练。当处理动辄数百 T 的数据时,吞吐量和时延成为关键问题。系统层面需要对网络系统和 IO 读写进行优化,甚至需要利用最新的 SMC-RDMA 等技术来提升系统能力,以确保训练的效率和速度。

 

除了集成层面的优化,将数据、调优和敏捷开发过程融合在一起也非常重要。此外,可观测性和运维能力也是关键因素。在 AI 应用中,由于容器化技术的普及,一台机器上可以轻松运行数百个容器。在数千台机器的规模下,如何有效地管理和监控这些容器成为了一个重要的系统层面的问题。

 

总的来说,智算操作系统的核心在于解决如何在 System For AI 的框架下实现高效的使能、优化和集成。同时,可观测性和运维能力也是确保整个系统稳定、高效运行的关键因素。对于 System For AI,阿里云和浪潮信息等公司都在持续进行相关研究。这涉及到异构算力的调度、CPU 能力的最大化,以及模型的优化,使其更好地适应算力。这些研究不仅在社区中进行,而且得到了社区理事单位如阿里云和浪潮信息的支持。“坦率地说,这些研究可以使阿里云或浪潮信息的产品更具竞争力,因此我们会坚定地在这个领域继续探索。”马涛说道。

2024-01-02 14:174294

评论

发布
暂无评论

【数据中台商业化】数据中台微前端实践

京东科技开发者

数据中台 微前端 iframe 微前端框架

有没有那么一瞬间,你也曾有过“失业焦虑”呢?| 社区征文

架构精进之路

技术创新 职业发展 三周年征文 三周年连更

《一文带你看懂:如何进行一次高质量CR》

后台技术汇

代码评审 三周年连更

求你看完再去面试!涨薪必备分布式事务小抄,狂怼面试官

程序知音

Java 分布式 后端 java架构 Java进阶

某程序员:被裁了要求公司足额补缴全部公积金,一次补二十多万!

Java你猿哥

Java 程序员 SSM框架

薪资结构重铸: Zebec将业务范围扩大到Web2薪资管理领域

威廉META

Spring Boot过滤器实现项目内接口过滤

Java你猿哥

Java Spring Boot SSM框架

微服务 Spring Boot 整合Redis分布式锁 实现优惠卷秒杀 一人一单

Bug终结者

redis 底层原理 三周年连更

Java 依赖注入(DI)

HoneyMoose

Unity常用生命周期函数解析 - 超级详细,不服来辩

陈言必行

Unity 三周年连更

Qz学算法-数据结构篇(稀疏数组、队列)

浅辄

数据结构 队列 稀疏矩阵 三周年连更

[杂谈]谷歌浏览器 XSwitch 插件 - 解决本地请求转发

alexgaoyh

浏览器 插件 请求转发 本地请求 xswitch

Android事件分发-基础原理和场景分析

京东科技开发者

android Activity View 企业号 4 月 PK 榜 ViewGroup

从原理聊JVM(一):染色标记和垃圾回收算法

小小怪下士

Java 程序员 后端 JVM

海通证券与易观千帆达成合作,构建优质客户生态圈

易观分析

金融 证券 经济

技术探讨 | YMatrix 如何将 TPC-H 性能提升 10 倍?

YMatrix 超融合数据库

数据库 开源数据库 性能提升 超融合数据库

企业微信接入系列-上传附件资源

六月的雨在InfoQ

企业微信 三周年连更 企业微信接入 企微上传附件

行业分析| 新的学习方式——在线自习室

anyRTC开发者

音视频 在线教育 视频直播 直播连麦 在线自习室

Spring Boot如何使用Undertow容器?超级详细,建议收藏

bug菌

Spring Boot 三周年连更 Undertow

和 if else说再见,SpringBoot 这样做参数校验才足够优雅!

Java你猿哥

Java spring Spring Boot ssm if-else

大厂面试难?对标大厂“Java系统性能优化实战”二面阿里轻松搞定

Java你猿哥

面试 性能优化 SSM框架 Java性能优化

直播预告 | 时序数据处理的云端利器:TDengine Cloud 详解与演示

TDengine

tdengine 时序数据库 云服务

什么是 API 接口测试

AREX 中文社区

测试 自动化测试 接口测试 回归测试

什么是前端开发领域的 Cumulative Layout Shift 问题

Jerry Wang

typescript 前端开发 angular web socket 三周年连更

音视频开发_获取媒体文件的详细信息

DS小龙哥

三周年连更

薪资结构重铸: Zebec将业务范围扩大到Web2薪资管理领域

西柚子

容易忽视的细节:Log4j 配置导致的零点接口严重超时

vivo互联网技术

问题排查 接口超时 线程block

跨平台应用开发进阶(五十二):安全合规之Android APP完整性校验机制探究

No Silver Bullet

android 安全合规 跨平台应用开发 三周年连更 APP完整性

全栈开发实战|​人事管理系统的设计与实现(Spring Boot + Vue 3 + MyBatis)

TiAmo

Spring Boot mybatis Vue 3 全栈开发 三周年连更

右键助手:MouseBoost PRO mac激活版

真大的脸盆

Mac Mac 软件 鼠标增强工具 鼠标辅助软件

从原理聊JVM(一):染色标记和垃圾回收算法

京东科技开发者

Java JVM 三色标记 垃圾回收器 企业号 4 月 PK 榜

AI 时代,龙蜥加速服务器操作系统进化,位列用户意愿迁移第一_操作系统_凌敏_InfoQ精选文章