rdma

实战点拨:深度学习平台AVA及海量资源管理
实战点拨:深度学习平台 AVA 及海量资源管理

5 月 26 日下午,在第二十八期七牛云架构师实践日,李朝光进行了题为《深度学习平台 AVA 及海量资源管理》...

Spark 上的深度学习框架再添新兵:Yahoo 开源 TensorFlowOnSpark

Yahoo Big ML团队宣布开源TensorFlowOnSpark,他们用来在大数据集群的分布式深度学习最新的开源框架。...

数据爆炸时代应该如何做云存储?阿里GDB图数据库应用最全揭秘
数据爆炸时代应该如何做云存储?阿里 GDB 图数据库应用最全揭秘

深度解密阿里GDB图数据库的设计架构与产品化实践

揭秘下一代腾讯云高性能网络技术
揭秘下一代腾讯云高性能网络技术

搭建下一代高性能网络的“地基”和“钢筋骨架”,腾讯云找到了两大突破口。

RoCE 技术助力微信深度学习框架 Amber 加速

RDMA,其全称为Remote Direct Memory Access(远程内存直接访问),是新一代数据中心高速网络互联的基础...

字节跳动开源高性能分布式训练框架BytePS:兼容TensorFlow等
字节跳动开源高性能分布式训练框架 BytePS:兼容 TensorFlow 等

BytePS在性能上颠覆了过去几年allreduce流派一直占据上风的局面

基于 Kubernetes 的跨云 AI 训练平台构建与展望
基于 Kubernetes 的跨云 AI 训练平台构建与展望

本次分享介绍基于 Kubernetes 的跨云 AI 训练平台的构建与展望。

UCloud可支撑单可用区320,000服务器的数据中心网络系统设计
UCloud 可支撑单可用区 320,000 服务器的数据中心网络系统设计

2018年10月份,UCloud数据中心基础网络完成了V4新架构的落地,自此,新建的数据中心(下简称DC)全面升级到...