2005年,美国新建立的数据中心需要消耗的能量=加利福尼亚州所消耗能量的10%(大约5GW),约40亿美金。 英国的1500个数据中心每年消耗的能量和英国第十大城市莱卡斯特所需要的能量相当。 2010年,英国单个数据中心每年在能量上的花费达到大约740万英镑。 计算机集群系统由于采用商用化部件,其能耗问题更为突出。 比利时的圣吉兰(Saint Ghislain)数据中心完全依靠数据中心外面的空气来冷却系统。 Dalles数据中心位于俄勒冈州的哥伦比亚河旁,河上的Dalles大坝为数据中心提供电力。数据中心有2座4层楼高的冷却塔。 Google数据中心以集装箱为单位,每个集装箱有1160台服务器,每个数据 中心有众多集装箱。 Google一次搜索查询的能耗能点亮100瓦的灯泡11秒钟。
云计算的前世今生“云计算”、“大数据”、“物联网”,作为当今互联网行业最火的三个词语,这三项技术已经广泛应用在实际生活当中,并随着科技的不断发展,正在使我们的生活发生翻天覆地的变化。
HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。
MapReduce是一个在海量数据上进行数据处理的并行编程模型,它特别适合于海量非结构化和结构化数据的搜索、分析和挖掘任务,已经开始被人们广泛使用。对于兴起的众多类似MapReduce系统来说,如何有效地评估和分析对比这些系统,成为当前一个需要解决的问题。本文详细讨论了针对MapReduce运行系统的性能评估指标和方法,设计和选择一系列具有代表性的程序和数据作为基准,用来评估和分析MapReduce系统。在这一评估方法指导下,本文在我们自己实现的MapReduce运行系统——Tplatform平台上扩展了Profiling功能,然后进行了一系列评估实验,来分析和寻找系统性能瓶颈,为未来系统优化提供依据。通过实验我们发现了我们系统的一些可改进的问题如任务调度、落后者问题等等。我们选择了针对导致提交任务延迟增加的落后者问题,通过实现后备任务策略来尝试改进。经模拟实验结果显示,我们提出的改进策略能够有效地改进落后者问题的性能问题。关键词:MapReduce,性能评估,落后者问题,后备任务策略。