收录了 roce 频道下的 50 篇内容
本文介绍低开销高性能的RoCE网络的设计方法。
RDMA,其全称为Remote Direct Memory Access(远程内存直接访问),是新一代数据中心高速网络互联的基础协议之一。RDMA协议来自于高性能计算领域,它改进了传统的TCP/IP协议栈在高速网络下的诸多缺点,使得网络通信数据传输不再经过内核或CPU,取而代之的则是直接通过网卡读写内存来进行,从而在应用上能够充分利用万兆以上的网络带宽。
在大规模数据中心中部署 RoCEv2,首先面临的问题是如何保证 RDMA 的可靠传输。
为实现资源的高效利用和轻量隔离,很多流行的大型云应用都在逐渐使用容器化。同时,很多数据密集型应用(例如,数据分析和深度学习框架)正在或希望采用RDMA来提高网络性能。行业趋势表明,这两种场景不可避免地会发生冲突。在本文中,我们介绍了FreeFlow,一个为容器云设计的基于软件的RDMA虚拟化框架。FreeFlow纯粹使用基于软件的方法,利用商用RDMA NICs实现了虚拟RDMA网络。
本文主要探索GPU单机多卡和多机多卡两种场景下的通信技术,并对部分技术进行实测
从服务网格及网络性能优化分析、网络性能优化技术介绍、网络性能优化思路三个方面论述
“文心一言就是在这个全国AI领域规模最大的高性能GPU集群上完成训练的。”
真全闪分布式存储可以通过 RoCE/RDMA 流控技术,最大限度压榨 RoCE 网络极限性能,让全闪硬件性能利用率接近 100%,让客户真实享受到硬件变革带来的性能红利,并且保护全闪硬件投资。
本文深入探索如何在万卡昇腾 NPU 集群上,基于业界典型 AI 框架和 MindSpeed 分布式并行加速库,结合网络拓扑优化算法和华为开源 HCCL 集合通信库协同优化,并深入剖析了万卡集群训练过程中涉及的技术原理和难点,探讨万卡集群训练的性能和稳定性策略,最后结合案例讲解面向万卡集群的性能提升实践。
Spectrum-4平台会在云、边缘数字中心更好地支持Omniverse数字孪生平台。
虽然网卡是接入RoCE网络,但其实问题本身是单纯路由相关的,所以看的时候,不用关注RoCE,只当做一个独立子网就行了