WDT:多 TCP 链路的数据传输开源库

阅读数:5937 2015 年 7 月 27 日

话题:Facebook语言 & 开发架构

作为国际著名的社交网站,Facebook与开源项目一直关系密切。目前,其设立的开源项目个数已经超过 200 个。这些开源项目在为广大开发人员提供便利的同时,也为 Facebook 带来了各方面丰厚的回报。近日,Facebook 又公布了一个开源项目——超高速数据传输工具(Warp speed Data Transfer,WDT)。接下来,本文就对 WDT 项目进行简要介绍。

从 2004 年上线开始,Facebook 迅速发展。时至今日,Facebook 每月的活跃用户量超过 20 亿。在西方的万圣节,Facebook 每天所接收到的照片数量更是多达 20 几亿张。为了满足用户的巨大需求,该公司先后在美国俄勒冈州和北卡罗来纳州等多个地方建立了数据中心。那么,如何在数据中心内部的主机之间以及数据中心之间进行高效的数据传输就成了迫切需要解决的问题。为此,Facebook 设立了 WDT 项目。

WDT 可以被视为一个嵌入式的库或者命令行工具,其目的是在尽量减少资源(CPU/ 内存等)消耗的情况下,利用多个 TCP 路径提高两个系统之间传送文件的效率。为了提高代码的可移植性,Facebook 尽量减少了 WDT 的依赖关系。由此,代码的编译时间也大量减少,并使得项目轻量化。此外,WDT 没有采用异常,以保证传输效率和代码的易于集成。

在传输机制方面,WDT 采用了阻塞式线程 IO,保证在任何点都会有线程在读和写。这样,数据就可以被缓冲在双向传输道路上,使得最小内核 / 用户空间切换的情况下,每个子系统仍然处于忙碌状态。正是这样的双向传输机制进一步保证了系统吞吐率的最大化。

目前,WDT 代码已经托管在GitHub中。其代码中包含了一个小的命令行工具 wcp.sh,用来测试传输性能。据透露,在 Facebook 内部传输系统之间的 RocksDB 快照时,WDT 通过长距离和高延迟的传输链路提供了高达 600MB/s 的传输速率。相比于之前高度优化的基于 HTTP 的传输方案,WDT 传输速率约是其 3 倍左右,且系统资源消耗更少。在没有进行节流控制的情况下,WDT 可以轻易使得 40Gb/s 的网卡饱和,并得到近乎理论的链路传输速度(大于 4GB/s)。

未来,Facebook 会借助开源社区继续对 WDT 项目进行改进。其关注点包括重新构建代码来使用无需复制的流 / 缓存流水线和处理乱序的报文等。


感谢徐川对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者)。