hadoop 2.7.0版本发布
adoop 2.7.0已经发布,在这个版本中 ,包含几个非常重要的功能。
【重要声明】
(1)从这个版本开始,JDK必须是JDK 7+,JDK 6以及更低版本不再支持;
(2)hadoop 2.7.0是测试版本,不能在生产环境中使用。
1. Hadoop Common
支持Windows Azure存储—以blob作为文件系统
2. Hadoop HDFS
(1)支持truncate操作,相当于回滚操作。
(2)支持为每种存储类型设置quota(注:HDFS已经支持异构存储系统,比如同时存在磁盘,SSD,flash,内存等存储介质)
(3)支持文件存在不同block大小。用户在往HDFS中append数据时,可选择直接将数据append到当前block末尾,也可以选择 append到一个新的block中,这可通过向{{append}} API传入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}标志位实现。
3. Hadoop YARN
(1)YARN的授权模块变成插拔式的,用户可根据需要编写授权模块;
(2) 对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。
4. Hadoop MapReduce
(1)允许用户设置每个job可同时运行的map task和reduce task数目。这个功能非常实用,相信很多公司一直想要这个feature。用户可通过以下两个参数控制同时运行的task数目:
mapreduce.job.running.map.limit (default: 0, for no limit)
mapreduce.job.running.reduce.limit (default: 0, for no limit)
(2)当最终输出产生的文件数目非常多时,加速FileOutputCommitter组件处理速度。
原创文章,转载请注明: 转载自董的博客
本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-7-0-release/
作者:Dong,作者介绍:http://dongxicheng.org/about/