写点什么

详解英伟达 Spectrum-4 平台,如何构成 Omniverse 数字孪生的骨干网络?

  • 2022-07-18
  • 本文字数:4366 字

    阅读完需:约 14 分钟

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?

在 GTC 2022 春季大会上,NVIDIA 发布了新一代以太网交换机 NVIDIA Spectrum-4 产品。近日,英伟达网络技术专家崔岩向 InfoQ 等媒体详细介绍了 Spectrum-4 以太网网络平台是如何构成 Omniverse 数字孪生骨干网络的。

什么是数字孪生


真正的数字孪生实际上是一个实物世界的现实翻版。从更大规模的角度看,数字孪生是一个和物理世界相连接的虚拟世界。


真正的数字孪生必须满足四大特征:


  • 物理上的准确性和真实性,必须遵循物理定律;

  • 不间断地与物理世界进行同步,基本上实现“即见即所得”的同步体验;

  • 精准的时间运行,因为在多个计算节点上实现同步;

  • 包括多个自制系统来支撑数字孪生技术。Omniverse 数字孪生是对工业资产、流程或环境的大规模精确模拟,具有多个与现实世界数据流完美同步的自治系统。因此,Omniverse 相当于是一个大融合,可以支持多个同步自治系统,在上述四个特征下实现更好的数字孪生环境。

OVX 服务器支撑 Omniverse 数字孪生平台


英伟达在今年的 GTC 春季大会上,对外发布了 OVX 服务器,可以更好地保持物理上的准确性,遵循物理定律,让数据中心具备可扩展性、低延时和精准时间的特点,来满足上述提到的四大特征,支撑 Omniverse 数字孪生平台,更好地为企业提供数字孪生的基础设施。


NVIDIA OVX 是为了支持数字中心规模、物理精确的工业数字孪生模拟而设计,它结合了最快的光线追踪技术和相关网络组件。第一代 OVX 服务器包括 8 颗 NVIDIA A40 RTX GPU 和 3 块 ConnectX-6 Dx 200Gbps 网卡组成一台 OVX 服务器,还包括两个至强 CPU、1TB 系统内存和 16T NVMe 存储,这使得 NVIDIA OVX 的 SuperPOD 能够在工厂、城市、世界范围构建实时性能的数字孪生系统。


为了能够更好地支撑数据中心规模的应用,NVIDIA 提供了 OVX POD 和 OVX SuperPOD,NVIDIA OVX 不仅仅是一台服务器,它旨在扩展以支持更为苛刻的数字孪生工作负载,为这些工作负载提供最优支持。所以,OVX SuperPOD 和 OVX  POD 多服务器计算系统上,引入了 NVIDIA Spectrum-3 交换机。它提供 200Gbps 网络架构,可以将 32 台 OVX 服务器与高速网络和高速存储进行连接,具备低延时和精准定时的特点,以同步物理世界和虚拟世界,满足大规模行业数字孪生的实时仿真需求。NVIDIA OVX  SuperPOD 架构支持部署 1 个或多个 OVX 的可扩展单元,为复杂的数字孪生提供低延续网络、高带宽和计算性能。

Spectrum-4 以太网交换机平台如何承接数字孪生的骨干网络?


Spectrum-4 400Gbps 交换机,除了提供更高的吞吐量、更好的服务质量、更高的安全性、更低的功耗和成本外,还能实现纳秒级的计时精度,可在 OVX  Super POD 或多个 SuperPOD 组成的数字孪生计算系统架构上提供更精准的、实时性更高的数字孪生基础设施。


Spectrum-4 网络平台将在云和边缘数据中心更全面、更好地支持 Omniverse 数字孪生平台,成为 Omniverse 计算系统的骨干网络。


下面聚焦介绍下 Spectrum-4 以太网网络平台,以及它是怎样承接数字孪生的骨干网络的。

首款 400Gbps 端到端以太网平台


Spectrum-4 网络平台是 NVIDIA 推出的首款 400Gbps 端到端以太网网络平台,它由四大部分组成,一个是 Spectrum-4 交换机,可以加速的云网络架构;二是 ConnectX-7 智能网卡,它是一个领先的智能网卡;三是 BlueField-3 DPU,可以编程的数据中心基础设施。在这三大硬件组件基础上还有 NVIDIA  Cumulus  Linux 或 SONiC 网络操作系统、DOCA 软件框架,这些硬件和软件共同组成了 Spectrum-4 端到端 400Gbps 以太网网络平台。


为什么它如此重要?现阶段,数据中心数据流量呈现指数级增长,并要求极致的性能、高级的安全性和强大的功能,以实现大规模的高性能、虚拟化和虚拟仿真。这对数据中心基础设施提出了非常高的要求。


Spectrum-4 以太网网络平台具有重要价值。它可以将 NVIDIA 推出的 OVX、EGX、HGX 这些计算系统与加速的以太网解决方案连接起来,提供现代数据中心工作负载所需的精确定时、强大的安全性、最低延迟、自适应路由和复杂的拥塞控制机制。DOCA 数据中心基础设施软件框架可以加速基于 NVIDIA BlueField DPU 的应用程序开发,增强大规模云原生应用程序。

硬件参数


Spectrum-4 以太网交换机,可为大规模云计算、企业人工智能、模拟仿真提供性能更优化的端到端以太网网络平台,提供极致的性能,高级的安全性、强大的功能,实现大规模、高性能、虚拟化、模拟仿真功能,使现代数据中心具备更完美的能力来支持 NVIDIA 应用框架。


Spectrum-4 网络平台,实际上是一个完整的体系,以 Spectrum-4 以太网交换机为核心,通过 ConnectX-7 智能网卡和 NVIDIA BlueField DPU,与 NVIDIA  DGX、EGX、HGX 和 OVX 服务器构成一个加速计算系统,提供网络和基础设施上的支持。


在 Spectrum-4 交换机上有一个强大的交换芯片,这是 NVIDIA 自研的 Spectrum ASIC,它可以提供强大的高性能交换能力。NVIDIA  CUMULUS 网络操作系统或 SONIC 网络操作系统来进行交换机的管理和配置,提供更好的开放平台。上面还会提供 NVIDIA NetQ 和 NVIDIA AIR 网络管理工具以及一些运维部署的工具,方便用户在上面构建自己的网络平台。


综上所述,Spectrum-4 平台主要提供四大功能。


  • 加速,一流的硬件性能和云规模的软件效率,能够给用户提供很好的加速网络平台;

  • 创新,第五代交换芯片设计优化云、人工智能、存储工作负载的功能,加速网络的性能;

  • 优化,从成本和投资回报等方面考虑给用户优化的方案,使之花相对少的钱得到更好的网络环境;

  • 可靠,实现公平性、可预测性和可见性的功能,让用户更好的运维网络。与上一代 Spectrum 交换机产品相比,Spectrum-4 平台的网络带宽提升了 4 倍,安全加密性能提升了 3 倍,为大规模数据中心基础设施提供了超高网络性能和强大安全性。在交换机采用的数量方面,一台 Spectrum-4 交换机由于端口密度较高,可提供的端口数量较多,可以替代相当 12 台的上一代交换机组成的网络,再加上它自身的 ASIC 芯片制程,在能源消耗上可以减少 40%。

软件参数


Spectrum-4 交换机支持用户通过开放的 SDK API,基于可编程 ASIC 快速构建的开源网络应用程序和协议。这是一个开放的平台,这与以往传统的网络平台不一样,传统网络架构需要专用的硬件设备,需要购买 License 才能开启特定功能,用户在选择产品时要选择特定供应商,缺乏开放性。


NVIDIA NetQ 平台可以采集整个网络运行情况,进行相应的验证、故障排除、遥测、网络分析、变更配置等操作,方便快速部署。


此外,NVIDIA Air 相当于一个网络数字孪生,可以在没有设备、没有搭建具体网络的情况下,通过 NVIDIA Air 辅助网络管理员构建一个孪生网络,简化整个网络部署。因此,如果在孪生网络里,虚拟环境下已经把数百台交换机、服务器、拓扑做了模拟配置,生效了一些更新的配置,都可以通过孪生网络做验证,验证没问题后再从孪生网络应用到物理网络和生产网络,这样可以大大减少部署中发生网络故障和网络的风险,更好地运维整个网络,为交换机部署节省 95%的时间。

三个最重要的交换机特性

自适应路由


传统的以太网采用静态哈希的方式,由静态哈希算法来决定某一个数据流通过上连链路的哪一条链路来做转发。很多数据都要通过这条链路来转发,当流量变大时,会出现堵塞的状况。


此外,虽然有的链路可能处于空闲状态,但由于算法原因,这些空闲链路无法转发特定数据流,只能等待原来选定的上连链路进行转发,这时会出现相应的拥塞问题。排在数据流尾部的数据包,延迟就会被大大被拉长。英伟达的比较实验室显示:如果不拥塞的情况是 1,在发生拥塞的情况下,最长会增加 2.5 倍等待延时,这会导致整个网络性能急剧下降。


而采用自适应路由之后,就会根据链路拥塞的情况做上传链路端口的选择,这样可以很好地利用上连链路的转发资源,减少链路上的拥塞问题。


BlueField DPU 和 ConnectX-4 智能网卡上还会做一些无序处理包的排序工作,从网卡的角度可以把无序数据包排序传给主机应用,大大改善延时,发生拥塞时会把数据流分配到其他的空闲链路上,这样可以更好地支持 RoCE 和存储上的一些加速功能,实现更高效率的网络架构,这是 Spectrum 目前重要的创新功能。


使用了自适应路由后,可以使整体网络性能提升 15%,这对于超级计算或者实时计算要求比较高的用户而言,是很大的性能上的提升。

高效网络大规模加速 Omniverse


支持 Omniverse 数据孪生,从应用数量、管理上都有很大提升。


如下图所示,左边是传统的叶脊结构数据中心架构,分为两个层次,一类是机柜置顶交换机,另一类是核心交换机,连成两层数据中心网络,自适应路由就应用在这种环境下。由于 Spectrum-4 是一个高密度端口的交换机,而且它的性能强悍,所以,它对于传统的叶脊架构的网络有替代作用,用 1 台 Spectrum-4 相当于 12 台上一代交换机组成的网络。



这样的部署架构,对网络运维人员来说,从整个机柜空间到管理节点数都有了大幅度的改善,还会带来 10 倍的节能。此外,变成 1 台交换机后,所有的交换性能都在 ASIC 芯片里做数据交换处理,来支持更大、更多数量的服务器,在延时性能上有了更大提升。

Spectrum 一流的加密功能


现在很多企业在数据中心部署时都愿意用多数据中心,或者数据中心跟云架构配合的混合云的应用体系,或者企业自己的数据中心存在异地的情况。这些方式都是希望数据中心通过公共基础设施做数据上的传输,但这些又都是敏感机密数据,不能泄露给公共基础设施,所以它需要在数据中心的两端做数据的加密。


在 Spectrum-4 交换机中,可以实现 VXLANSec,它是基于 MACsec 的加密技术,让两个数据中心之间可以通过公共基础设施,通过 Internet 和城域网做连接,但在公共基础设施传输上采用加密技术,让数据传输处在安全保护的状态下。在相应的一些混合云的应用,即数据中心到边缘的应用上,都可以采用这个技术,而且加密流量传输的速度会有 3 倍的提升。对于异地多中心,或者混合云,或者数据中心到边缘计算有部署的企业,可以采用这种加密模式来降低专线成本。采用公共基础设施相应的费用比自己构建专网或者用光纤构建链路的费用节省很多,这是一个可以帮助企业节省投资的方案。


Spectrum-4 的另外两个重要组件,一是 ConnectX-7 智能网卡,它是从 10Gbps 到 400Gbps 多种速率的以太网网卡,可以为云、电信应用、人工智能、企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务,ConnectX-7 上具有加速软件定义网络的数据包处理的技术,也就是 ASAP2 的相关技术,可以在不消耗主机 CPU 的条件下提供线速性能,提供用于 TLS、IPsec 和 MACsec 在线加密/解密功能来硬件加速安全。同时,可以通过高级 RoCE 和 GPUDirect 存储实现高性能存储和数据访问来加速 NVMe-oF,并为未来数据中心应用程序和时间敏感型基础设施提供极其准确的时间同步,为敏捷、高性能的网络解决方案提供助力。


另一个重要组件是 NVIDIA BlueField-3 DPU,它是第三代片上数据中心基础设施,可以支持用户从云端到核心数据中心,再到边缘构建软件定义、硬件加速的 IT 基础设施。新款 DPU 从应用程序负载中卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率、可扩展性和安全性。

2022-07-18 18:435618
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 578.2 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

5分钟,带你看完24岁60W年薪架构师的简历,上面竟然写着精通JVM

收到请回复

Java JVM java面试 简历模板 金九银十

优雅,永不过时!SpringBoot中这样编写Controller层代码,那叫一个完美

Java永远的神

Java 程序员 面试 程序人生 springboot

高效完成需求计划的四个关键 | 敏捷开发

LigaAI

Scrum 敏捷开发 Sprint LigaAI spring event

修筑产学研用一体化的通衢,从一场比赛背后瞭望苏州园区人才培养新范式

脑极体

【8.12-8.19】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

马拉车算法 (最长回文串 例题 密码截获)

Five

算法 8月月更

如何在企业数字化团队内部实现数据分析建模成果的结构化整合沉淀

ModelWhale

工作流 数字化转型 数字化 案例分享 提高效率

当内卷风波及代码领域,看Alluxio将会采取怎样的块分配策略

Alluxio

腾讯 存储 Alluxio block 8月月更

手把手教你实现 TiFlash 向量化函数丨十分钟成为 TiFlash Contributor

TiDB 社区干货传送门

开源一夏 | 在 STM32L051 上使用 RT-Thread (四、无线温湿度传感器 之 串口通讯)

矜辰所致

开源 RT-Thread 8月月更 STM32L051

前半个月的行动中,整个圈子都在疯传的“内网King”到底是个啥?

青藤云安全

网络安全 主机安全 攻防演练

Meta项目功能测试 | 开启PrestoDB和Aria扫描优化

Alluxio

hive presto Alluxio 大数据 开源 8月月更

7 天能找到 Go 工作吗?学学 Go 数组和指针试试

梦想橡皮擦

Python 爬虫 8月月更

故障处理 | DM 搭建 MySQL 8.0 同步链路报错:code=26005

TiDB 社区干货传送门

安装 & 部署 TiDB 源码解读

前端监控系列3 | 如何衡量一个站点的性能好坏

字节跳动终端技术

字节跳动 前端 性能监控 火山引擎 站点性能

Web3.0 DAPP项目智能合约系统开发技术详情

开发微hkkf5566

如何避免数据湖变成数据沼泽

Kyligence

数据湖 数据管理 智能多维数据库

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB 社区干货传送门

离线部署系列文章之一:TiDBv5.3.0集群部署&源码部署 Haproxy v2.5.0

TiDB 社区干货传送门

实践案例 版本升级 管理与运维 安装 & 部署 扩/缩容

ABAP 一组关键字 IS BOUND, IS NOT INITIAL 和 IS ASSIGNED 的用法辨析

汪子熙

指针 应用 SAP abap 8月月更

Python图像处理丨基于OpenCV和像素处理的图像灰度化处理

华为云开发者联盟

Python 人工智能 图像

SAP ABAP 和 Java 里的弱引用(WeakReference)和软引用(SoftReference)

汪子熙

Java 引用 SAP abap 8月月更

九章云极DataCanvas公司与中国信通院完成可信AI基础软件战略合作

九章云极DataCanvas

人工智能 数据智能 数智化 可信AI

字节一面:HTTPS 一定安全可靠吗?

程序员小毕

Java 程序员 面试 https 校招

离线部署系列文章之二:TiDB集群升级(5.3.0->5.4.2)&缩扩容 TiDB Server、PD、TiKV、TiFlash

TiDB 社区干货传送门

版本升级 集群管理 管理与运维 安装 & 部署

云图说丨初识可信分布式身份服务

华为云开发者联盟

云计算 安全 后端

一文带你认知定时消息发布RocketMQ

华为云开发者联盟

云计算 后端

OpenHarmony有氧拳击之设备端开发

OpenHarmony开发者

OpenHarmony

20万字的《Kafka运维实战宝典》PDF现在免费下载了

石臻臻的杂货铺

大数据 kafka

数字知识库-知识图谱管理系统

金陵老街

Java 数字化 知识图谱 企事业系统

打了15天,如何做到在容器权限上不失一分?

青藤云安全

容器安全 攻防演练

详解英伟达 Spectrum-4 平台,如何构成Omniverse数字孪生的骨干网络?_架构_刘燕_InfoQ精选文章