阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

详解英伟达 Spectrum-4 平台,如何构成 Omniverse 数字孪生的骨干网络?

  • 2022-07-18
  • 本文字数:4366 字

    阅读完需:约 14 分钟

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?

在 GTC 2022 春季大会上,NVIDIA 发布了新一代以太网交换机 NVIDIA Spectrum-4 产品。近日,英伟达网络技术专家崔岩向 InfoQ 等媒体详细介绍了 Spectrum-4 以太网网络平台是如何构成 Omniverse 数字孪生骨干网络的。

什么是数字孪生


真正的数字孪生实际上是一个实物世界的现实翻版。从更大规模的角度看,数字孪生是一个和物理世界相连接的虚拟世界。


真正的数字孪生必须满足四大特征:


  • 物理上的准确性和真实性,必须遵循物理定律;

  • 不间断地与物理世界进行同步,基本上实现“即见即所得”的同步体验;

  • 精准的时间运行,因为在多个计算节点上实现同步;

  • 包括多个自制系统来支撑数字孪生技术。Omniverse 数字孪生是对工业资产、流程或环境的大规模精确模拟,具有多个与现实世界数据流完美同步的自治系统。因此,Omniverse 相当于是一个大融合,可以支持多个同步自治系统,在上述四个特征下实现更好的数字孪生环境。

OVX 服务器支撑 Omniverse 数字孪生平台


英伟达在今年的 GTC 春季大会上,对外发布了 OVX 服务器,可以更好地保持物理上的准确性,遵循物理定律,让数据中心具备可扩展性、低延时和精准时间的特点,来满足上述提到的四大特征,支撑 Omniverse 数字孪生平台,更好地为企业提供数字孪生的基础设施。


NVIDIA OVX 是为了支持数字中心规模、物理精确的工业数字孪生模拟而设计,它结合了最快的光线追踪技术和相关网络组件。第一代 OVX 服务器包括 8 颗 NVIDIA A40 RTX GPU 和 3 块 ConnectX-6 Dx 200Gbps 网卡组成一台 OVX 服务器,还包括两个至强 CPU、1TB 系统内存和 16T NVMe 存储,这使得 NVIDIA OVX 的 SuperPOD 能够在工厂、城市、世界范围构建实时性能的数字孪生系统。


为了能够更好地支撑数据中心规模的应用,NVIDIA 提供了 OVX POD 和 OVX SuperPOD,NVIDIA OVX 不仅仅是一台服务器,它旨在扩展以支持更为苛刻的数字孪生工作负载,为这些工作负载提供最优支持。所以,OVX SuperPOD 和 OVX  POD 多服务器计算系统上,引入了 NVIDIA Spectrum-3 交换机。它提供 200Gbps 网络架构,可以将 32 台 OVX 服务器与高速网络和高速存储进行连接,具备低延时和精准定时的特点,以同步物理世界和虚拟世界,满足大规模行业数字孪生的实时仿真需求。NVIDIA OVX  SuperPOD 架构支持部署 1 个或多个 OVX 的可扩展单元,为复杂的数字孪生提供低延续网络、高带宽和计算性能。

Spectrum-4 以太网交换机平台如何承接数字孪生的骨干网络?


Spectrum-4 400Gbps 交换机,除了提供更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本外,还能实现纳秒级的计时精度,可在 OVX  Super POD 或多个 SuperPOD 组成的数字孪生计算系统架构上提供更精准的、实时性更高的数字孪生基础设施。


Spectrum-4 网络平台将在云和边缘数据中心更全面、更好地支持 Omniverse 数字孪生平台,成为 Omniverse 计算系统的骨干网络。


下面聚焦介绍下 Spectrum-4 以太网网络平台,以及它是怎样承接数字孪生的骨干网络的。

首款 400Gbps 端到端以太网平台


Spectrum-4 网络平台是 NVIDIA 推出的首款 400Gbps 端到端以太网网络平台,它由四大部分组成,一个是 Spectrum-4 交换机,可以加速的云网络架构;二是 ConnectX-7 智能网卡,它是一个领先的智能网卡;三是 BlueField-3 DPU,可以编程的数据中心基础设施。在这三大硬件组件基础上还有 NVIDIA  Cumulus  Linux 或 SONiC 网络操作系统、DOCA 软件框架,这些硬件和软件共同组成了 Spectrum-4 端到端 400Gbps 以太网网络平台。


为什么它如此重要?现阶段,数据中心数据流量呈现指数级增长,并要求极致的性能、高级的安全性和强大的功能,以实现大规模的高性能、虚拟化和虚拟仿真。这对数据中心基础设施提出了非常高的要求。


Spectrum-4 以太网网络平台具有重要价值。它可以将 NVIDIA 推出的 OVX、EGX、HGX 这些计算系统与加速的以太网解决方案连接起来,提供现代数据中心工作负载所需的精确定时、强大的安全性、最低延迟、自适应路由和复杂的拥塞控制机制。DOCA 数据中心基础设施软件框架可以加速基于 NVIDIA BlueField DPU 的应用程序开发,增强大规模云原生应用程序。

硬件参数


Spectrum-4 以太网交换机,可为大规模云计算、企业人工智能、模拟仿真提供性能更优化的端到端以太网网络平台,提供极致的性能,高级的安全性、强大的功能,实现大规模、高性能、虚拟化、模拟仿真功能,使现代数据中心具备更完美的能力来支持 NVIDIA 应用框架。


Spectrum-4 网络平台,实际上是一个完整的体系,以 Spectrum-4 以太网交换机为核心,通过 ConnectX-7 智能网卡和 NVIDIA BlueField DPU,与 NVIDIA  DGX、EGX、HGX 和 OVX 服务器构成一个加速计算系统,提供网络和基础设施上的支持。


在 Spectrum-4 交换机上有一个强大的交换芯片,这是 NVIDIA 自研的 Spectrum ASIC,它可以提供强大的高性能交换能力。NVIDIA  CUMULUS 网络操作系统或 SONIC 网络操作系统来进行交换机的管理和配置,提供更好的开放平台。上面还会提供 NVIDIA NetQ 和 NVIDIA AIR 网络管理工具以及一些运维部署的工具,方便用户在上面构建自己的网络平台。


综上所述,Spectrum-4 平台主要提供四大功能。


  • 加速,一流的硬件性能和云规模的软件效率,能够给用户提供很好的加速网络平台;

  • 创新,第五代交换芯片设计优化云、人工智能、存储工作负载的功能,加速网络的性能;

  • 优化,从成本和投资回报等方面考虑给用户优化的方案,使之花相对少的钱得到更好的网络环境;

  • 可靠,实现公平性、可预测性和可见性的功能,让用户更好的运维网络。与上一代 Spectrum 交换机产品相比,Spectrum-4 平台的网络带宽提升了 4 倍,安全加密性能提升了 3 倍,为大规模数据中心基础设施提供了超高网络性能和强大安全性。在交换机采用的数量方面,一台 Spectrum-4 交换机由于端口密度较高,可提供的端口数量较多,可以替代相当 12 台的上一代交换机组成的网络,再加上它自身的 ASIC 芯片制程,在能源消耗上可以减少 40%。

软件参数


Spectrum-4 交换机支持用户通过开放的 SDK API,基于可编程 ASIC 快速构建的开源网络应用程序和协议。这是一个开放的平台,这与以往传统的网络平台不一样,传统网络架构需要专用的硬件设备,需要购买 License 才能开启特定功能,用户在选择产品时要选择特定供应商,缺乏开放性。


NVIDIA NetQ 平台可以采集整个网络运行情况,进行相应的验证、故障排除、遥测、网络分析、变更配置等操作,方便快速部署。


此外,NVIDIA Air 相当于一个网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,通过 NVIDIA Air 辅助网络管理员构建一个孪生网络,简化整个网络部署。因此,如果在孪生网络里,虚拟环境下已经把数百台交换机、服务器、拓扑做了模拟配置,生效了一些更新的配置,都可以通过孪生网络做验证,验证没问题后再从孪生网络应用到物理网络和生产网络,这样可以大大减少部署中发生网络故障和网络的风险,更好地运维整个网络,为交换机部署节省 95%的时间。

三个最重要的交换机特性

自适应路由


传统的以太网采用静态哈希的方式,由静态哈希算法来决定某一个数据流通过上连链路的哪一条链路来做转发。很多数据都要通过这条链路来转发,当流量变大时,会出现堵塞的状况。


此外,虽然有的链路可能处于空闲状态,但由于算法原因,这些空闲链路无法转发特定数据流,只能等待原来选定的上连链路进行转发,这时会出现相应的拥塞问题。排在数据流尾部的数据包,延迟就会被大大被拉长。英伟达的比较实验室显示:如果不拥塞的情况是 1,在发生拥塞的情况下,最长会增加 2.5 倍等待延时,这会导致整个网络性能急剧下降。


而采用自适应路由之后,就会根据链路拥塞的情况做上传链路端口的选择,这样可以很好地利用上连链路的转发资源,减少链路上的拥塞问题。


BlueField DPU 和 ConnectX-4 智能网卡上还会做一些无序处理包的排序工作,从网卡的角度可以把无序数据包排序传给主机应用,大大改善延时,发生拥塞时会把数据流分配到其他的空闲链路上,这样可以更好地支持 RoCE 和存储上的一些加速功能,实现更高效率的网络架构,这是 Spectrum 目前重要的创新功能。


使用了自适应路由后,可以使整体网络性能提升 15%,这对于超级计算或者实时计算要求比较高的用户而言,是很大的性能上的提升。

高效网络大规模加速 Omniverse


支持 Omniverse 数据孪生,从应用数量、管理上都有很大提升。


如下图所示,左边是传统的叶脊结构数据中心架构,分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连成两层数据中心网络,自适应路由就应用在这种环境下。由于 Spectrum-4 是一个高密度端口的交换机,而且它的性能强悍,所以,它对于传统的叶脊架构的网络有替代作用,用 1 台 Spectrum-4 相当于 12 台上一代交换机组成的网络。



这样的部署架构,对网络运维人员来说,从整个机柜空间到管理节点数都有了大幅度的改善,还会带来 10 倍的节能。此外,变成 1 台交换机后,所有的交换性能都在 ASIC 芯片里做数据交换处理,来支持更大、更多数量的服务器,在延时性能上有了更大提升。

Spectrum 一流的加密功能


现在很多企业在数据中心部署时都愿意用多数据中心,或者数据中心跟云架构配合的混合云的应用体系,或者企业自己的数据中心存在异地的情况。这些方式都是希望数据中心通过公共基础设施做数据上的传输,但这些又都是敏感机密数据,不能泄露给公共基础设施,所以它需要在数据中心的两端做数据的加密。


在 Spectrum-4 交换机中,可以实现 VXLANSec,它是基于 MACsec 的加密技术,让两个数据中心之间可以通过公共基础设施,通过 Internet 和城域网做连接,但在公共基础设施传输上采用加密技术,让数据传输处在安全保护的状态下。在相应的一些混合云的应用,即数据中心到边缘的应用上,都可以采用这个技术,而且加密流量传输的速度会有 3 倍的提升。对于异地多中心,或者混合云,或者数据中心到边缘计算有部署的企业,可以采用这种加密模式来降低专线成本。采用公共基础设施相应的费用比自己构建专网或者用光纤构建链路的费用节省很多,这是一个可以帮助企业节省投资的方案。


Spectrum-4 的另外两个重要组件,一是 ConnectX-7 智能网卡,它是从 10Gbps 到 400Gbps 多种速率的以太网网卡,可以为云、电信应用、人工智能、企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务,ConnectX-7 上具有加速软件定义网络的数据包处理的技术,也就是 ASAP2 的相关技术,可以在不消耗主机 CPU 的条件下提供线速性能,提供用于 TLS、IPsec 和 MACsec 在线加密/解密功能来硬件加速安全。同时,可以通过高级 RoCE 和 GPUDirect 存储实现高性能存储和数据访问来加速 NVMe-oF,并为未来数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步,为敏捷、高性能的网络解决方案提供助力。


另一个重要组件是 NVIDIA BlueField-3 DPU,它是第三代片上数据中心基础设施,可以支持用户从云端到核心数据中心,再到边缘构建软件定义、硬件加速的 IT 基础设施。新款 DPU 从应用程序负载中卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率、可扩展性和安全性。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-07-18 18:434175
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.8 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

跟着卷卷龙一起学Camera--夜景拍照04

卷卷龙

ISP camera 10月月更

支撑阿里“双十一”的消息中间件,带你云淡风轻面对高并发

图灵教育

RocketMQ 中间件 架构师 消息中间件

【入门】你连Babel都不会配?那插件不成乱装了

小鑫同学

前端 Node 10月月更

跟着卷卷龙一起学Camera--夜景拍照03

卷卷龙

ISP camera 10月月更

这是我见过的,最好的工作流设计

跟YY哥学Jira

设计 Jira workflow

【入门教程】Rollup模块打包器整合

小鑫同学

前端 Node 10月月更

🧩 Vue 深入组件开发☞#异步组件#

小鑫同学

前端 Node 10月月更

走进“yarn create vite”的源码学习

小鑫同学

前端 Node 10月月更

开发 Babel 插件可以试试这个 CLI 工具

小鑫同学

前端 Node 10月月更

【实战】自定义 Github Action 库

小鑫同学

前端 Node 10月月更

【uniCloud】云对象的应用与提升

小鑫同学

前端 Node 10月月更

【抓包】青花瓷实战教程②

小鑫同学

前端 Node 10月月更

io的实质

wzh

Linux 面试 后端 io java 编程

read、select、poll、epoll区别

wzh

网络 Linux Kenel epoll IO多路复用 poll

Java 如何将 List 转换为 MAP

HoneyMoose

跟着卷卷龙一起学Camera--夜景拍照02

卷卷龙

ISP camera 10月月更

Spring之注解开发

楠羽

笔记 Spring 框架漏洞 10月月更

OptaPlanner和网球俱乐部排程问题

成长兔🐇

CLI新功能之多项目启动器

小鑫同学

前端 Node 10月月更

【抓包】青花瓷使用教程①

小鑫同学

前端 Node 10月月更

cstdio的源码学习分析10-格式化输入输出函数fprintf整体分析

桑榆

源码刨析 10月月更 C++

Babel 插件开发&访问节点

小鑫同学

前端 Node 10月月更

利用fs-extra实现"yarn create tlist"创建项目

小鑫同学

前端 Node 10月月更

架构实战营模块九作业(毕业设计)

zhihai.tu

【Serverless】前端上 Ali 云必备指南

小鑫同学

前端 Node 10月月更

OptaPlanner 和 商人旅行问题(TSP)

成长兔🐇

【PPT下载】杭州ACE三周年活动

跟YY哥学Jira

Atlassian Jira ITSM jsm ITSM解决方案

开源项目站点必备&交流区功能

小鑫同学

前端 Node 10月月更

面试官:你说说var、let、const三者的区别

CoderBin

JavaScript 面试 前端 10月月更

干货|什么是特性团队/功能团队(FeatureTeam)

laofo

Scrum 研发效能 PMO 敏捷精益 敏捷研发

算法 _【实验5.2】1-深度优先搜索暴力求解旅行商问题

清风莫追

算法 深度优先搜索 10月月更

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?_架构_刘燕_InfoQ精选文章