P13

  Hadoop 介绍与实践 文档

Hadoop介绍:Hadoop是一个分布式计算基础架构下的相关子项目的集合;Hadoop是由Apache软件基金会支持;Hadoop中的MapReduce,HDFS,HBASE是基于Google发布的MapReduce,GFS,Bigtable设计实现;2004年,最初版本的由DougCutting和MikeCafarella开始实施;2006年,Yahoo网络计算团队采用Hadoop。HDFS块的概念64MB(寻址时间和传输时间);块副本,一般有2个;名称节点与数据节点(Namenode与Datanode)名称节点只有一个,记录数据文件和数据块的信息;

szx85307 2012-05-28   622   0
P10

  Hadoop 运行流程 文档

Hadoop包括hdfs与mapreduce两部分,在使用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念mapreduce整体上可以分为这么几条执行的线索,jobclient,JobTracker与TaskTracker。

szx85307 2012-05-28   2711   0
P8

  Hadoop安装最终版 文档

在Microsoft Windows XP操作系统下,安装Ubuntu8.04 lts server版本+xubuntu桌面到VMware虚拟机上。

szx85307 2012-05-28   2632   0
P30

  Hadoop 淘宝方案 文档

Hadoop与数据分析淘宝。Hadoop基本概念;Hadoop的应用范围;Hadoop底层实现原理;Hive与数据分析;Hadoop集群管理;典型的Hadoop离线分析系统架构;常见问题及解决方案。

qsf113 2012-05-09   664   0
P17

  windows上Hadoop的伪分布式配置 文档

在windows上配置Hadoop需要做一些准备,包括软件的下载,了解Hadoop运行的条件,了解Hadoop在Linux与windows平台上的不同。 Hadoop安装需要的基础东西有,Hadoop安装包,jdk开发工具,Cygwin安装程序。 其中jdk最好在1.6版本以上,考虑到兼容性以及功能的完整性我们选择Hadoop-0.20.2版本;因为由于我们是模拟Linux平台配置Hadoop所以需要先在电脑上安装Cygwin,提供其他软件之外的shell支持,安装时可以选择从你下载的Cygwin安装包目录安装也可以选择从Internet上直接安装,从Internet上安装可能需要更长的时间,下面我们会详细介绍。

louiscool 2012-04-25   614   0
P12

  Hadoop和HBase分布式配置及整合My Eclipse开发 文档

本文档主要侧重hadoop和hbase在windows下的开发.在linux上开发自行修改即可.

chenkunopq 2012-04-23   225   0
P11

  Apache Hadoop入门第一步 文档

Apache Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用Apache Hadoop软件库,可以从单个服务器扩展到上千台服务器,每台服务器都提供本地的计算后存储。ApacheHadoop软件库不再依赖于硬件实现高可用性,Apache Hadoop软件库可以检测并处理应用层的失效,从而在计算机集群之上提供高可用性服务。

paradoxlee00 2012-04-11   5446   0
P150

  Hadoop 入门 文档

Google的十个核心技术,而且可以分为四大类: 分布式基础设施:GFS、Chubby 和 Protocol Buffer。 分布式大规模数据处理:MapReduce 和 Sawzall。 分布式数据库技术:BigTable 和数据库 Sharding。 数据中心优化技术:数据中心高温化、12V电池和服务器整合。

robinzhang 2012-03-22   713   0
P

Hadoop 中文版文档 文档

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apache.org/core/。

bmml123 2012-03-21   10514   0
P9

  Hadoop API 使用介绍 文档

Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务都可用这个模型来表达。 Hadoop的Map/Reduce框架也是基于这个原理实现的,下面简要介绍一下Map/Reduce框架主要组成及相互的关系。

whyqq1987 2012-03-19   3909   0
P10

  Hadoop 知识总结(最终总结) 文档

本文档主要是针对Hadoop最基本知识的了解,对于刚刚接触Hadoop学习过程中的总结。Hadoop是什么Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

sweetbaybe 2012-03-14   3088   0
P10

  Hadoop 知识总结(最终总结) 文档

本文档主要是针对Hadoop最基本知识的了解,对于刚刚接触Hadoop学习过程中的总结。Hadoop是什么Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。

sweetbaybe 2012-03-05   5003   0
P38

  Hadoop 技术讲解 文档

Hadoop项目简介; HDFS体系结构; HDFS关键运行机制; Hadoop VS.Google(分布式文件系统); Hadoop API; Hadoop环境搭建。

aaron509 2012-03-01   4567   0
P12

  淘宝 Hadoop 数据分析实践 文档

数据分析选型历程; Hadoop简介; 系统架构; 集群介绍; 近期对Hadoop的改造实践。

wsldg 2012-02-28   678   0
P23

  Hadoop学习总结之五:Hadoop的运行痕迹 文档

在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题。

huafenged 2012-02-24   530   0
P26

  hadoop学习总结之四:Map-Reduce的过程解析 文档

一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的。

huafenged 2012-02-24   2954   0
P10

  Hadoop 学习总结之三:Map-Reduce入门 文档

1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-。

huafenged 2012-02-24   3024   0
P24

  Hadoop学习总结之二:HDFS读写过程解析 文档

Hadoop学习总结之二:HDFS读写过程解析

huafenged 2012-02-24   4586   0
P6

  Hadoop 学习总结之一:HDFS简介 文档

HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。

huafenged 2012-02-24   3626   0
P3

  hadoop常见错误总结 文档

错误1:bin/hadoop dfs 不能正常启动,持续提示: INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s). 原因:由于 dfs 的部分文件默认保存在tmp文件夹,在系统重启时被删除。 解决:修改core-site.xml 的 hadoop.tmp.dir配置文件路径:/home/hadoop/tmp。

419133824 2012-02-18   5004   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档