收录了 roce 频道下的 50 篇内容
本文介绍低开销高性能的RoCE网络的设计方法。
RDMA,其全称为Remote Direct Memory Access(远程内存直接访问),是新一代数据中心高速网络互联的基础协议之一。RDMA协议来自于高性能计算领域,它改进了传统的TCP/IP协议栈在高速网络下的诸多缺点,使得网络通信数据传输不再经过内核或CPU,取而代之的则是直接通过网卡读写内存来进行,从而在应用上能够充分利用万兆以上的网络带宽。
在大规模数据中心中部署 RoCEv2,首先面临的问题是如何保证 RDMA 的可靠传输。
为实现资源的高效利用和轻量隔离,很多流行的大型云应用都在逐渐使用容器化。同时,很多数据密集型应用(例如,数据分析和深度学习框架)正在或希望采用RDMA来提高网络性能。行业趋势表明,这两种场景不可避免地会发生冲突。在本文中,我们介绍了FreeFlow,一个为容器云设计的基于软件的RDMA虚拟化框架。FreeFlow纯粹使用基于软件的方法,利用商用RDMA NICs实现了虚拟RDMA网络。
本文主要探索GPU单机多卡和多机多卡两种场景下的通信技术,并对部分技术进行实测
从服务网格及网络性能优化分析、网络性能优化技术介绍、网络性能优化思路三个方面论述
“文心一言就是在这个全国AI领域规模最大的高性能GPU集群上完成训练的。”
Spectrum-4平台会在云、边缘数字中心更好地支持Omniverse数字孪生平台。
虽然网卡是接入RoCE网络,但其实问题本身是单纯路由相关的,所以看的时候,不用关注RoCE,只当做一个独立子网就行了
正式向全球用户提供全云规模的极致性能云存储服务。