WDT:多TCP链路的数据传输开源库
作为国际著名的社交网站, 非死book 与开源项目一直关系密切。目前,其设立的开源项目个数已经 超过200个 。这些开源项目在为广大开发人员提供便利的同时,也为非死book带来了各方面丰厚的回报。近日,非死book又公布了一个开源项目—— 超高速数据传输工具(Warp speed Data Transfer,WDT) 。接下来,本文就对WDT项目进行简要介绍。
从2004年上线开始,非死book迅速发展。时至今日,非死book每月的活跃用户量超过20亿。在西方的万圣节,非死book每天所接收到的照片数量更是多达20几亿张。为了满足用户的巨大需求,该公司先后在美国俄勒冈州和北卡罗来纳州等多个地方建立了数据中心。那么,如何在数据中心内部的主机之间以及数据中心之间进行高效的数据传输就成了迫切需要解决的问题。为此,非死book设立了WDT项目。
WDT可以被视为一个嵌入式的库或者命令行工具,其目的是在尽量减少资源(CPU/内存等)消耗的情况下,利用多个TCP路径提高两个系统之间传送文件的效率。为了提高代码的可移植性,非死book尽量减少了WDT的依赖关系。由此,代码的编译时间也大量减少,并使得项目轻量化。此外,WDT 没有采用例外,以保证传输效率和代码的易于集成。
在传输机制方面,WDT采用了阻塞式线程IO,保证在任何点都会有线程在读和写。这样,数据就可以被缓冲在双向传输道路上,使得最小内核/用户空间切换的情况下,每个子系统仍然处于忙碌状态。正是这样的双向传输机制进一步保证了系统吞吐率的最大化。
目前,WDT代码已经托管在 GitHub 中。其代码中包含了一个小的命令行工具wcp.sh,用来测试传输性能。 据透露 ,在非死book内部传输系统之间的RocksDB快照时,WDT通过长距离和高延迟的传输链路提供了高达600MB/s的传输速率。相比于之前高度优化的基于HTTP的传输方案,WDT传输速率约是其3倍左右,且系统资源消耗更少。在没有进行节流控制的情况下,WDT可以轻易使得40Gb/s的网卡饱和,并得到近乎理论的链路传输速度(大于4GB/s)。
未来,非死book会借助开源社区继续对WDT项目进行改进。其关注点包括重新构建代码来使用无需复制的流/缓存流水线和处理乱序的报文等。