写点什么

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进

InfoQ

  • 2024-10-26
    北京
  • 本文字数:3134 字

    阅读完需:约 10 分钟

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进

10 月 24 日,元脑®服务器第八代新品发布会在京举行。会上,浪潮信息重磅发布元脑®服务器第八代算力平台,基于开放架构设计,业界率先实现“一机多芯”,同一架构支持英特尔®至强®6 处理器及 AMD EPYC™ 9005 系列处理器,在促进多元生态共进的同时,具备更全面的智能能力和更高能效,更好支撑 AI 大模型开发与应用创新。实测数据表明,在 LLaMA2 大模型 AI 推理场景中,整机性能较上代最大提升 3 倍。


元脑服务器第八代算力平台拥有 23 款新品,基于先进的计算、存储架构创新,在 CPU 总线互联带宽、内存带宽及容量上全面优化,单机核心数最多到 576C,主频高达 5.0GHz,内存带宽提升高达 136%。元脑服务器第八代算力平台一经发布,就打破多项 SPEC 国际性能测试纪录。


浪潮信息、信通院、Intel、AMD、阿里云、国家新能源汽车技术创新中心、金山云代表共同发布

一机多芯,开放标准促进多元算力生态进化


随着大模型能力的持续提升,生成式人工智能在企业侧、行业侧的落地正在提速,智能应用不断涌现。日趋丰富的 AI 应用场景也衍生出新的算力挑战,不同 AI 应用的典型特征及系统需求存在差异,需要多元的算力生态予以满足。伴随着通用处理器在芯片架构、指令集等方面对 AI 的优化增强,在 AI 推理端的巨大应用潜力使得 CPU 在 AI 时代变得更加重要,需要系统创新释放通用算力在 AI 领域的应用价值。


元脑服务器第八代算力平台成为全面且强大算力生态的载体,源于浪潮信息的诸多创新系统架构设计,将通过共建开放标准的方式聚集更多生态力量,使能通用算力与 AI 算力共同支撑日益多样的 AI 工作负载,加速多元算力生态进化,推动开放多元算力标准落地。


在通用算力领域,浪潮信息积极参与的开放计算模组规范(OCM),正在推动建立基于处理器的标准化算力模组单元,构建 CPU 的统一算力底座,解决多元 CPU 生态挑战问题,推动算力产业快速发展。会上发布首款基于服务器计算模组设计规范 OCM 的 NF3290G8,整机全面解耦,以 CPU、内存为核心构建最小算力单元,标准化高速/低速互联接口,实现处理器算力模组部件化,灵活支持多类型 CPU,让不同算力共享统一平台,降低算力产业创新试错成本和推广适配成本,也让多元化的应用场景能够快速找到贴合的方案。



在 AI 算力领域,浪潮信息推动开放加速规范 OAM 的生态繁荣,大幅缩减国内外加速芯片和服务器的适配周期,加速先进算力上线部署,支撑大模型及 AI 应用迭代成熟。目前,90%高端加速卡 AI 芯片基于 OAM 规范设计。会上发布基于 UBB2.0 规范开发的元脑服务器 NF5898G8,可以兼容符合 OCP 开放加速规范的多款 OAM 2.0 模组,通过全模块化的设计及极致的系统能效,满足算力的快速迭代需求,进一步加速算力融合创新。

智能增强,全面加速大模型开发与 AI 应用创新


元脑服务器第八代算力平台实现了全面的智能增强,通过搭载自研服务器操作系统云孪 KOS、AIOps 智能运维管理平台以及 AI 软件堆栈,从服务器智能,到快速构建 AI 开发环境,到作业调度和资源统一纳管,乃至智算中心智能运维,提供全面的平台软件与工具软件支持。


新平台在预警、散热、管理等方面进行了全新的智能化升级。其中,在智能预警方面,全新升级内存故障智能预警修复技术 MUPR,基于对上万台服务器故障数据的建模分析和 AI 模型算法的训练,实现内存故障提前预警、内存错误实时隔离、内存故障智能修复,降低内存导致宕机故障率 80%。在智能管理方面,通过 RTOS 实时操作系统,实现开机 3 秒内智能管理调控风扇转速,降低 30%的噪音,确保散热安全。


面向大模型部署难题,新平台与服务器操作系统云孪 KOS 实现软硬协同优化,自研云孪 KOS AI 定制版简单 2 步即可实现大模型训练环境搭建,200 节点训练集群开发环境,采用 AI 定制版 20 分钟即可完成部署上线可用,极大提升了大模型开发部署效率。

创新液冷设计,让 AI 更绿色更节能


AI 的快速发展实际上带动了数据中心耗电量的激增,数据中心的耗电量非常惊人,中国算力中心耗电量将从 2023 年的 1500 亿千瓦时,飙升到 2030 年将超过 4000 亿千瓦时,这其中绝大多数都是由于 AI 的发展所带来。浪潮信息服务器产品线总经理赵帅介绍称,液冷散热将会是数据中心的必然发展趋势。


浪潮信息“All in 液冷”战略已实现全线元脑服务器产品支持冷板式液冷, 面向数据中心实现从核心部件到整体方案的全方位覆盖。


最新发布的两相液冷 130kW 液冷整机柜,基于两相冷板和负压液冷的创新,实现液冷整机柜安全、解耦、高密和标准化,提供更高效的解热能力、更灵活的节点支持、更安全的漏液防护以及标准化液冷部件,解热能力高达每平方厘米 200W 以上,以先进原生液冷技术支撑超大规模智算中心建设。


浪潮信息提供液冷数据中心全生命周期整体解决方案,具有从室外一次侧冷源到室内二次侧 CDU、液冷连接系统、液冷服务器等全线布局,为用户全方位打造绿色节能数据中心交钥匙工程。



元脑服务器新平台在部件节能方面,也进行了系统化创新。比如服务器电源全面应用钛金电源,电源转换效率达 98%以上;全局部件温度监控,包括网卡、NVME、M.2 等全部的部件都可以进行精准的温度识别,并通过单风扇级的精细化调控策略精准控制。另外针对关键核心部件、高功耗零件设计独立风道配合单风扇的散热调控;同时针对风扇研发高效能风扇,改良风扇充磁方式、改进扇叶曲面设计,提升风扇散热效率 20%;另外还可以根据 CPU 负载瞬时调整 CPU 频率,节省 CPU 的能耗。

元脑服务器第八代提供最先进的计算、存储和架构创新


赵帅在新品发布会上介绍说,服务器作为一个算力的承载,作为支撑企业和社会信息化的核心基础设施,其重要性是不言而喻的。元脑服务器新算力平台通过开放的设计理念,实现了一机多芯,全面解耦,落地了多元计算标准算力模组


智能时代需要强大的算力。应用需求的复杂多变,需要不同类型的算力才能精准匹配计算场景,应用场景的多元发展对芯片提出了更高的性能需求。也对算力生态提出更高的要求。浪潮信息一直秉持多元异构的发展理念,以应用为导向,将最优的算力资源整合进整机系统,做了大量的系统性设计,最终形成算效先进,且稳定可靠的统一的服务器平台。



激发创新活力,开源开放是核心和源泉。通过更好的开源开放,可以聚合产业生态,联合积极探索大规模数据中心基础设施的可持续发展创新方案,推动创新技术的各种产业化落地。正是秉承着开源开放多元发展的理念,第八代服务器新品实现了全栈的开源开放,从部件、节点、整机柜到固件,实现了各样产品的快速落地,并带动整个产业生态的发展。


在开放标准方面,浪潮信息的整机柜参考 OCP 的整机柜标准规范和 OCTC 的标准,采用行业里通用的 BusBar 的接口以及 UQDB 的快接头,同时对 UQDB 的接头进行了互换安全性的认证和测试,最大程度保障各个部件标准可用。在固件方面,元脑服务器新品基于 OpenBMC 开源方案自研的 InBry 固件,满足多元异构算力的高效运行,更灵活、更智能。


AI 助力业务创新,算力先行,持续完善“平台化+模块化”的产品设计


浪潮信息副总裁刘军在会议上也介绍了元脑服务器的迭代细节。他说,推进 AI 应用,发展人工智能,浪潮信息一直坚持以应用为导向、以系统为核心的整体战略,解决在 AI 的算力、算法、数据、生态等各方面遇到的挑战。浪潮信息发布元脑服务器第八代算力新产品,旨在加速推动 AI 应用落地。算力是 AI 的三要素之一,是算法创新的使能力量。算力不仅来源于芯片,更来源于系统。


当前 AI 算力的发展,面临着高功耗、低算效的问题,从电力到算力、从算力到智力的转变效率都不断降低。要解决这些问题不能仅从芯片等单点问题入手,而应该从应用需求为导向出发,以系统的方法来推动系统的创新,发展高算效、高能效、多元融合的智能算力平台。


智算时代是开源开放的时代,浪潮信息以“平台化+模块化”的产品设计,持续完善一机多芯产品架构,全面支持 OAM/OCM 算力的开放标准,让不同算力共享统一平台,降低算力产业创新试错成本和适配成本,也让多元化的应用场景都能快速找到适配的方案。

2024-10-26 17:005673

评论

发布
暂无评论

「架构师训练营 4 期」 第五周 - 001&2

凯迪

架构师系列 16 思维导图

桃花原记

进入最佳汇报状态的反思

JiangX

28天写作

第5周课后总结-技术选型一

潘涛

架构师训练营 4 期

腾讯会议增长背后的技术实践

李忠良

28天写作

与前端训练营的日子 --Week14

SamGo

学习

架构师系列 15 系统设计图

桃花原记

管理笔记[3]:各得其所,各尽其才

L3C老司机

PMI 项目管理认证体系

Ian哥

28天写作

壁纸欣赏

小马哥

七日更

【初级】个人分享Vue前端开发教程笔记

我是哪吒

程序员 面试 Vue 大前端 2月春节不断更

架构总结思维导图

Mars

死锁问题

武哥聊编程

Java 多线程 死锁

个人隐私之后期展望

张老蔫

28天写作

产品经理训练营-第三周学习总结

月亮 😝

创业失败启示录|舌尖辨茶

阿萌

28天写作 创业失败启示录

机器学习·笔记之:Gradient Descent For Linear Regression

Nydia

如何完成一次快速的查询

xcbeyond

MySQL ES 优化 MySQL优化 28天写作

java import 导入包时,我们需要注意什么呢?

看山

Java import

算法训练营总结

Geek_ac4080

ARTS打卡 第29周

引花眠

微服务 ARTS 打卡计划

产品经理训练营-第三周作业

月亮 😝

极客大学产品经理训练营 解决方案的设计与积累 第6课总结 John 易筋 ARTS 打卡 Week 37

John(易筋)

ARTS 打卡计划 极客大学产品经理训练营 解决方案的设计与积累

28天瞎写的第二百三十四天:炒肝你吃得惯吗?

树上

28天写作

关于上篇连接中的人的补充说明

孙苏勇

产品

第10周作业&总结

胡益

一致性hash算法

Geek_mewu4t

第十周学习总结

Binary

第5周课后练习-技术选型一

潘涛

架构师训练营 4 期

终于用我的那个二手显卡搭建好了TF2的环境

IT蜗壳-Tango

七日更

工具词典: MIT

lidaobing

MIT 28天写作 Slidepad Roam Research

元脑®服务器第八代新品重磅发布!创新开放架构引领算力生态多元共进_AI&大模型_InfoQ精选文章