Hadoop介绍:Hadoop是一个分布式计算基础架构下的相关子项目的集合;Hadoop是由Apache软件基金会支持;Hadoop中的MapReduce,HDFS,HBASE是基于Google发布的MapReduce,GFS,Bigtable设计实现;2004年,最初版本的由DougCutting和MikeCafarella开始实施;2006年,Yahoo网络计算团队采用Hadoop。HDFS块的概念64MB(寻址时间和传输时间);块副本,一般有2个;名称节点与数据节点(Namenode与Datanode)名称节点只有一个,记录数据文件和数据块的信息;
Hadoop包括hdfs与mapreduce两部分,在使用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。
在Microsoft Windows XP操作系统下,安装Ubuntu8.04 lts server版本+xubuntu桌面到VMware虚拟机上。
Hadoop与数据分析淘宝。Hadoop基本概念;Hadoop的应用范围;Hadoop底层实现原理;Hive与数据分析;Hadoop集群管理;典型的Hadoop离线分析系统架构;常见问题及解决方案。
在windows上配置Hadoop需要做一些准备,包括软件的下载,了解Hadoop运行的条件,了解Hadoop在Linux与windows平台上的不同。 Hadoop安装需要的基础东西有,Hadoop安装包,jdk开发工具,Cygwin安装程序。 其中jdk最好在1.6版本以上,考虑到兼容性以及功能的完整性我们选择Hadoop-0.20.2版本;因为由于我们是模拟Linux平台配置Hadoop所以需要先在电脑上安装Cygwin,提供其他软件之外的shell支持,安装时可以选择从你下载的Cygwin安装包目录安装也可以选择从Internet上直接安装,从Internet上安装可能需要更长的时间,下面我们会详细介绍。
本文档主要侧重hadoop和hbase在windows下的开发.在linux上开发自行修改即可.
Apache Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用Apache Hadoop软件库,可以从单个服务器扩展到上千台服务器,每台服务器都提供本地的计算后存储。ApacheHadoop软件库不再依赖于硬件实现高可用性,Apache Hadoop软件库可以检测并处理应用层的失效,从而在计算机集群之上提供高可用性服务。
Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。
Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的,下面简要介绍一下Map/Reduce框架主要组成及相互的关系。
本文档主要是针对Hadoop最基本知识的了解,对于刚刚接触Hadoop学习过程中的总结。Hadoop是什么Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。
本文档主要是针对Hadoop最基本知识的了解,对于刚刚接触Hadoop学习过程中的总结。Hadoop是什么Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。
Hadoop项目简介; HDFS体系结构; HDFS关键运行机制; Hadoop VS.Google(分布式文件系统); Hadoop API; Hadoop环境搭建。
数据分析选型历程; Hadoop简介; 系统架构; 集群介绍; 近期对Hadoop的改造实践。
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。
一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的。
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-。
Hadoop学习总结之二:HDFS读写过程解析
HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
错误1:bin/hadoop dfs 不能正常启动,持续提示: INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s). 原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。 解决:修改core-site.xml 的 hadoop.tmp.dir配置文件路径:/home/hadoop/tmp。