hadoop 2.7.0版本发布

jopen 9年前

adoop 2.7.0已经发布,在这个版本中 ,包含几个非常重要的功能。

【重要声明】

(1)从这个版本开始,JDK必须是JDK 7+,JDK 6以及更低版本不再支持;

(2)hadoop 2.7.0是测试版本,不能在生产环境中使用。

1. Hadoop Common

支持Windows Azure存储—以blob作为文件系统

2. Hadoop HDFS

(1)支持truncate操作,相当于回滚操作。

(2)支持为每种存储类型设置quota(注:HDFS已经支持异构存储系统,比如同时存在磁盘,SSD,flash,内存等存储介质)

(3)支持文件存在不同block大小。用户在往HDFS中append数据时,可选择直接将数据append到当前block末尾,也可以选择 append到一个新的block中,这可通过向{{append}} API传入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}标志位实现。

3. Hadoop YARN

(1)YARN的授权模块变成插拔式的,用户可根据需要编写授权模块;

(2) 对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。

4. Hadoop MapReduce

(1)允许用户设置每个job可同时运行的map task和reduce task数目。这个功能非常实用,相信很多公司一直想要这个feature。用户可通过以下两个参数控制同时运行的task数目:

mapreduce.job.running.map.limit (default: 0, for no limit)

mapreduce.job.running.reduce.limit (default: 0, for no limit)

(2)当最终输出产生的文件数目非常多时,加速FileOutputCommitter组件处理速度。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-7-0-release/

作者:Dong,作者介绍:http://dongxicheng.org/about/