Spark 1.4 新特性概述

gf67 10年前

经过4个RC版本，Spark 1.4最终还是赶在Spark Summit前发布了，本文简单谈下本版本中那些非常重要的新feature和improvement.

SparkR就不细说了，于data scientists而言，简直是望眼欲穿，千呼万唤始出来........ 这显然要用单独一篇文章来说下 : )

Spark Core:

现在大家最关心什么？性能和运维呀！什么最影响性能？必须shuffle呀！什么是运维第一要务?必须是监控呀(就先不扯alert了)！1.4在这两点都做足了功夫。 1.4中，Spark为应用提供了REST API来获取各种信息(jobs / stages / tasks / storage info)，使用这个API搭建个自己的监控简直是分分钟的事情，不止于此，DAG现在也能可视化了，不清楚Spark的DAGScheduler怎么运作的同学，现在也能非常轻易地知道DAG细节了。再来说说shuffle, 大家都知道，从1.2开始sort-based shuffle已经成为默认的shuffe策略了，基于sort的shuffle不需要同时打开很多文件，并且也能减少中间文件的生成，但是带来的问题是在JVM的heap中留了大量的java对象，1.4开始，shuffle的map阶段的输出会被序列化，这会带来两个好处：1、spill到磁盘上的文件变小了 2、GC效率大增，有人又会说，序列化反序列化会产生额外的cpu开销啊，事实上，shuffle过程往往都是IO密集型的操作，带来的这点cpu开销，是可以接受。

大家期待的钨丝计划(Project Tungsten)也在1.4初露锋芒，引入了新的shuffle manager “UnsafeShuffleManager”, 来提供缓存友好的排序算法，及其它一些改进，目的是降低shuffle过程中的内存使用量，并且加速排序过程。钨丝计划必定会成为接下来两个版本(1.5,1.6)重点关注的地方。

Spark Streaming：

Streaming在这个版本中增加了新的UI，简直是Streaming用户的福音啊，各种详细信息尽收眼底。话说Spark中国峰会，TD当时坐我旁边review这部分的code，悄悄对说我”this is awesome”。对了，这部分主要是由朱诗雄做的，虽然诗雄在峰会上放了我鸽子，但必须感谢他给我们带来了这么好的特性！另外此版本也支持了0.8.2.x的Kafka版本。

Spark SQL(DataFrame)

支持老牌的ORCFile了，虽然比Parquet年轻，但是人家bug少啊 : ) 1.4提供了类似于Hive中的window function，还是比较实用的。本次对于join的优化还是比较给力的，特别是针对那种比较大的join，大家可以体会下。JDBC Server的用户肯定非常开心了，因为终于有UI可以看了呀。

Spark ML/MLlib

ML pipelines从alpha毕业了，大家对于ML pipelines的热情还真的蛮高的啊。我对Personalized PageRank with GraphX倒是蛮感兴趣的，与之相关的是recommendAll in matrix factorization model。事实上大多数公司还是会在Spark上实现自己的算法。

来自：http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=205592626&idx=1&sn=a5b4287dce901fe291422faf60ec3e70&scene=2&from=timeline&isappinstalled=0#rd

Spark 1.4 新特性概述

相关资讯