微软开源 rDSN 分布式系统开发框架
近日,由微软亚洲研究院系统组开发的分布式系统开发框架——Robust Distributed System Nucleus(rDSN)通过GitHub平台开源。rDSN旨在为广大分布式系统的开发者,学生,和研究人员提供一个开放式的框架,用于快速搭建和运维高性能和高鲁棒的分布式系统,而后者对于当前很多技术的成功都至关重要,比如云计算,大数据和物联网等。
rDSN 的思想来源于系统组过去在分布式系统开发和运维各个阶段进行的各种自动化项目。这些项目尝试帮助开发者更快捷有效地测试,调试,优化,监控,扩展 (Scale-out),复制(Replicate),组合(Compose),甚至推理(Reason)。这些项目遇到了很多的困难,很多是由于开始的代码工作没有考虑这些需求,导致后期的开发事倍功半。rDSN提供了一个开发框架使得开发人员一开始也不需要考虑这些问题,但是代码会符合一定的原则,使得后期可以用很小的甚至零代价升级他们的代码来实现上面提到的需求。rDSN的一个早期版本在Bing里面用于开发一个分布式数据服务系统,该系统已经上线并运行良好。根据产品组的反馈,rDSN进行了改进并希望通过开源的方式对社区有所贡献,特别是对那些分布式系统的相关开发人员,学生和研究者有所帮助。
对于开发者而言,rDSN可以帮助改善开发和运维体验,来提高系统的编程敏捷性,性能以及鲁棒性。rDSN最简单的用法可以看成是一个和主流RPC框架(比如Apache Thrift)等兼容的升级版RPC框架,或者是一个采用基于事件编程的高性能任务库。开发者设置rDSN为测试模式,来系统性地模拟各种各样的调度决策和系统错误,来提早暴露系统可能的缺陷。当错误发生时,rDSN能重放发生的错误,并把分布式系统所有节点的状态放在一个进程里调试,而且不必担心由于调试导致意外的timeout。当系统上线以后,rDSN提供了自动过的执行流跟踪和性能检测。如果你对rDSN自带的底层库不满意(比如网络库或者日志系统等),rDSN是一个开放的框架因此你可以非常方便地替换它们。再比如,当你需要处理更大规模的输入并且想要提高系统的可用性,rDSN提供了复制框架 (replication framework)来把单机服务变成多机+自动复制的服务,而这其中只需要非常少的进一步的开发。总之,rDSN提供并且帮助开发工具和运行时框架能够和上层应用无缝集成,能够极大地提高开发和运维的效率。
对于学生来说,rDSN提供了一个能够方便地简化,理解,和操纵分布式系统的平台。当学习一个分布式系统协议的时候,你可以在rDSN的模拟器模式下编写和调试。该模拟器能够简化实际系统中的很多复杂性,并在需要的时候慢慢把这些复杂性加回去。比如,从单线程到多线程,从同步且可靠的网络到异步不可靠网络。为了理解协议是如何运作的,rDSN提供了自动的执行流跟踪,并且会产生一个“事件矩阵”来记录代码之间的调用关系和频率,以揭示系统内部的依赖关系及其相关权重。
很多分布式系统的研究人员常常期望提供通用的分布式系统的相关工具和运行时策略。rDSN提供了专门的工具API(Tool API)来帮助这方面的工作。工具API提供了底层模块的虚拟化,并且把上层系统的所有不确定性都暴露了出来。这使得构建高效和可靠的工具和运行时策略成为可能。目前开源的这个版本里面就包含了很多这方面的例子。此外,rDSN的设计保证了这些工具和运行时策略能够和基于rDSN的上策应用无缝集成,因此这些研究成果都能很快地进入实际部署。
rDSN的开源一方面能够帮助到社区,另一方面也期待着社区反馈相关成果来大家一起把分布式系统的开发变得更加简单高效。请通过如下链接访问rDSN: https://github.com/Microsoft/rDSN.