阿里云破纪录的背后：377秒是如何炼成的？

10月28日， Sort Benchmark 官方宣布，阿里云用377秒完成了100TB的数据排序，打破了此前Apache Spark创造的1406秒纪录。在含金量最高的 GraySort 和 MinuteSort 两个评测系统中，阿里云分别在通用和专用目的排序类别中创造了4项世界纪录。

消息一出，整个技术圈都沸腾了，特别是对云计算高度关注的互联网、计算机行业。阿里云打破世界纪录，再次点燃了大家对分布式计算的热情。同时，大数据、云计算的各种圈子里也掀起了讨论：这件事情有多难？怎么做到的？对普通人意味着什么等等。

基于这些原因，我们发表此文，希望从阿里云的角度回答大家的疑问。

这件事情有多难？

SortBenchmark的出现，是希望能用最简单的方法，评估出不同的计算模型，计算平台的计算能力优劣？而排序是最基础的计算问题，任何一本数据结构和算法的计算机教材，首先要讲的，就是各种排序算法。所以排序，当之无愧的成为这个简单，但直接有效的benchmark。

SortBenchmark竞赛最早的纪录追溯到1987年，当时都是单机的比赛。如何造出最强大的机器，如何尽量压榨单台机器的性能是大家的主要工作。

但从1998年开始，大家的策略和思路发生了改变，分布式计算开始成为主流。大家的工作重点也转变为：如何有效调度成百上千乃至几万台机器上的 CPU、内存、网络、磁盘IO等物理资源，最快完成海量数据的排序。这就像军队里，管好几个人，你可以当班长；管好几十个人，你可以当排长；但要管好几万人，你才能当将军。

而且，对大规模集群做线性扩展，远比大家想象得困难。正如，一个班长说“我只有几个人，所以我才是班长，但如果你现在给我几万人，我马上就是将军了”，大家会觉得好笑一样。当规模不断扩大，系统的各种瓶颈都会逐渐出现，原来能处理所有消息，能做出各种调度决定，现在发现忙不过来；如果找出下级代理，可能又会发现代理做出的决定和处理总不是最好的。

这还只是一种资源的调度，当计算需要多种资源完美配合时，你可能会发现内存是有效调度了，但是会影响网络的使用；网络可能用好了，但是又影响了磁盘的有效利用。调度不好时，各个维度可能互相冲突。

当你把资源调度得差不多了，你可能发现其实这个计算任务如果从机器A上换到机器B上运行，时间会短很多。或者机器A本来很适合，但是碰巧机器A坏了，就像几千人的军队打仗，有人临阵脱逃很正常。诸如此类的问题，随着规模的不断扩大，会急剧复杂化。可以说，规模每增加一个数量级，分布式计算平台需要处理问题就会完全不同。而如何利用大量低端机器达到高性能，正是云计算技术的核心挑战。

阿里云的“飞天”分布式计算平台于2013年正式上线了5000台的单集群规模，现在生产线上的规模更大。关于如何支持这么大的规模，可以参考 VLDB 2014上伏羲发表的文章，这不是本文的重点。本文接下来会重点介绍在支持如此大规模计算集群后，我们还做了哪些事情，让一万亿条记录，100TB数据的排序能在不到7分钟完成。

阿里云如何做到的？

“飞天”是阿里云的分布式计算平台，不仅承担着阿里集团内部所有的离线数据处理任务，同时也提供阿里云公共云服务的基础平台支撑。“飞天”系统的关键模块包括：(a)Pangu-分布式文件系统，负责存储和管理计算中心的数据文件；(b)Fuxi-分布式调度系统，负责管理计算中心的集群资源，调度分布式系统中运行的在线和离线应用。Fuxi提供了一种名为FuxiJob的大数据批处理框架，能处理任意的基于DAG(有向无环图)描述的用户计算任务。

Fuxi已经部署在了阿里巴巴多个计算中心的数十万服务器上，单个集群的规模超过5000台机器。任何可以用DAG描述的离线数据处理作业都可以用Fuxi Job来执行，包括但不限于MapReduce作业和更加复杂的机器学习作业。Job的输入输出文件以及运行过程中的临时文件都存储在Pangu中，依赖 Pangu提供的文件副本和locality配置来获取更好的性能，同时提高数据的可靠性。

接下来我们重点介绍基于“飞天”系统开发的Fuxisort程序。我们在GraySort和MinuteSort两项比赛中使用相同的程序，程序中的优化将在后续章节中详细介绍。

概述

首先，程序会对待排序数据进行采样，以确定数据各分片的范围。如图1所示，除了采样之外，整个数据排序过程分两大阶段：map阶段和sort阶段。两个阶段都包含多个并行的任务。