华为云部署全球首个 PFC-Free 的商用 RDMA 网络 HUAWEI CurreNET

阅读数:1 2020 年 3 月 23 日 23:39

华为云部署全球首个PFC-Free的商用RDMA网络HUAWEI CurreNET

在 2019 华为全联接 (HUAWEI Connect) 大会上华为公司发布了一系列基于 All-Flash 架构的云存储产品,正式向全球用户提供全云规模的极致性能云存储服务。

在这些炫目产品的背后是华为公司多年的技术积累,其中一项黑科技即是全面超越 RoCE 网络的下一代低时延网络技术,HUAWEI CurreNET(以下简 CurreNET)。

华为云部署全球首个PFC-Free的商用RDMA网络HUAWEI CurreNET

CurreNET

CurreNET
CurreNET 是华为公司全自研的下一代低时延网络技术,其主要特征在于支持免 PFC 的全云规模部署,原生支持虚拟化,同时支持标准 verbs 和 socket 接口,以及应用自定义的通信语义卸载。基于以上特征,CurreNET 从网络规模、网络时延、多租户支持以及应用端到端通信性能等多个角度实现了对当前主流的低时延网络技术 RoCE (RDMA over Converged Ethernet) 的全方位超越。

具体体现在:

  • 第一,消除了 PFC 依赖之后,可以跨越 POD 部署 RDMA 网路,消除了资源孤岛,网络规模达到 10 万 +,真正做到 RDMA 和 TCP 同等规模。

  • 第二,消除了数据流发送速率的波动,使得网络可以获得稳定的低时延,常态下网络时延小于 10us;在高负载(50%+)情况下,平均时延相对 RoCE 降低 58%,99.9% 尾时延降低 90%。综合上述技术优势,CurreNET 网络技术使得分布式存储的 IOPS(随机读)能力提升了 30%。

当前 RoCE 网络的大规模部署受限于其拥塞控制算法对 PFC 的依赖。由于 PFC 会引入网络死锁和 PFC 风暴风险,业界大多将 RoCE 网络限制在一个较小的范围内,例如仅允许同 pod 内的主机通过 RoCE 网络进行通信。这不可避免地造成了云数据中心内出现大量资源孤岛,而这完全违背了云计算的核心理念。

为了解决这个问题,CurreNET 提出了全新的、具有理论稳定点的拥塞控制算法。通过 ECN 模拟端到端信誉流控,CurreNET 把交换机队列深度严格控制在极低的水平且维持稳定,从概率上让因为缓存溢出造成的丢包接近零。

因此,CurreNET 不需要 PFC 就能在传统以太网环境中运行;解除对 PFC 依赖的同时,也让 RDMA 的全云部署成为可能;同时,极低的队列又显著降低了排队时延,把端到端时延成功维持在微秒水平。上述特性成功支撑了华为大规模云存储业务的极致用户体验。

本文转载自 华为云产品与解决方案 公众号。

原文链接: https://mp.weixin.qq.com/s/Zc9jodNkyhnWp9TBHZwydw

评论

发布