P19

  MapReduce与Hadoop 文档

在输入数据的“逻辑”记录上应用Map操作得出一个中间Key/value pair集合。在所有具有相同key值的value值上应用Reduce操作,从而达到合并中间的数据,得到一个想要的结果的目的

loyoo 2012-08-28   2554   0
P8

  Hadoop集群测试方案及计划 v1.0 文档

引言随着云计算技术的飞速发展,越来越多的数据密集型企业相继出现.面临着这些海量的数据信息,包括结构化信息、半结构化信息及其非结构化信息,如何存储并对这些信息进行处理将是这些企业面临的巨大挑战.Hadoop是一个基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个(Hadoop Distributed FileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。

lygkkk123 2012-08-21   570   0
P18

  Hadoop 介绍 文档

Hadoop的简介;Map Reduce介绍;Hadoop 执行步骤;Hadoop 的安装和配置应用情景分析一、Hadoop的简介hadoop是做什么的?Hadoop为云计算平台提供了一种分布式存储和并行计算的能力。将大块的数据文件,如数据规模在G、T级别,进行切割并进行分布式存储;hadoop的mapreduce计算模型,将计算任务按照分割文件拆解并进行分布式并行计算,后再对计算结果进行汇总。

amen1024 2012-08-03   6077   0
P8

  VM下配置Hadoop详细教程 文档

前言:Hadoop是一个分布式系统基础架构,主要是由HDFS、MapReduce和Hbase组成,分别为Google集群系统GFS、MapReduce、BigTable的开源实现。具有扩容能力强,效率高,成本低,可靠性好等特点。配置前最好熟悉一下Linux常用命令的使用,遇到问题时善于利用收索引擎,本教程的Linux版本选择比较常用的Ubuntu。

janee81930 2012-07-23   721   0
P4

  hadoop1.0.3 windows配置及eclipse整合与实例 文档

hadoop1.0.3 windows配置及eclipse整合与实例

ftfniqpl 2012-07-09   6259   0
P32

  Hadoop 学习总结 文档

Hadoop 一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 。<br> Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)组成 。<br> Hadoop程序目前只能运行在Linux系统上,window上运行需要安装其他插件,安装过程见《hadoop安装说明.docx》 。

orangeking 2012-06-29   8911   0
P42

  Hadoop可靠性概述(百度) 文档

HDFS可靠性概述HDFS系统架构NameNode元数据结构HDFS能做什么?存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量(latency不敏感)应用模式为:write-once-read-many存取模式HDFS不适合做什么?存储小文件(不建议使用)大量的随机读(不建议使用)需要对文件的修改(不支持)谁在用Hadoop

hans511002 2012-06-24   776   0
P40

  Hadoop 讲解 文档

Mapreduce hadoop hive三者关系Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。(就是抽象)不管过去,现在是Apache软件基金会管理的开源项目基本架构 - Hadoop是如何构成的Hadoop主要由HDFS(HadoopDistributedFileSystem)和MapReduce引擎两部分组成最底部是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。

hans511002 2012-06-24   728   0
P5

  Hadoop在Linux的上安装与配置 文档

安装hadoop是一件非常容易的事情,读者可以在官网上下载到最近的几个hadoop版本。

hans511002 2012-06-24   3750   0
P

Hadoop 官方中文文档 文档

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

hans511002 2012-06-24   345   0
P38

  Hadoop 技术讲解 文档

HDFS为了做到可靠性(reliability)创建了多份数据块(datablocks)的复制(replicas),并将它们放置在服务器群的计算节点中(computenodes),MapReduce就可以在它们所在的节点上处理这些数据了。

xiexiantao 2012-06-20   2317   0
P7

  Hadoop 命令大全 文档

0概述:所有的Hadoop命令均由bin/hadoop脚本引发。不指定参数运行hadoop脚本会打印所有命令的描述。

xfj3526 2012-06-13   3684   0
P12

  Hadoop 源码以及流程解析 文档

第一个是boolean型变量quietmode,用于设置加载配置的模式。通过阅读源代码就可以清楚,这个quietmode如果为true,实际上默认就为true,加载配置的模式为快速模式,其实也就是在解析配置文件的过程中,不输出日志信息,就这么简单。

xfj3526 2012-06-13   2384   0
P8

  自己整理的Hadoop Hive MapReduce 文档

Hadoop是2005 Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大的分布式系统得资源。

xfj3526 2012-06-13   5194   0
P46

  云计算之Hadoop 文档

报告内容:Hadoop核心、Hadoopdfs(Hdfs)、MapReduce分布式并行计算模型Hadoop扩展Hadoopbase(Hbase)基于hadoop核心的高扩展性分布式数据库Pig-一种高级数据流语言和并行计算的执行框架,也基于hadoop核心Hive-建立在hadoop之上的数据仓库基础设施,提供数据摘要,adhocquerying,数据集分析。HadoopDFS(HDFS)HDFS:技术背景数据海量化趋势催生了DFS应用单机无法存放,大数据集被分割存储文件系统对跨机器的数据集进行统一管理实现的复杂度远大于本地存储系统,例如:错误处理HDFS是一种实现超大文件的存储,流式数据访问,运行于普通商业集群。

daibiao 2012-06-13   5056   0
P6

  用Hadoop搭建分布式存储和分布式运算集群 文档

用Hadoop搭建分布式存储和分布式运算集群用Hadoop搭建分布式存储和分布式运算集群1.列出使用的机器普通PC,要求:cpu:750M-1Gmem:>128Mdisk:>10G不需要太昂贵的机器。

daibiao 2012-06-13   5156   0
P3

  Hadoop 的搭建 文档

Hadoop的搭建

daibiao 2012-06-13   7728   0
P21

  云计算架构 Hadoop 文档

2009年7月 ,Hadoop Core项目更名为Hadoop Common;<br> 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。<br> 2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。<br> 2010年5月 ,Avro脱离Hadoop项目,成为Apache顶级项目。<br> 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。<br> 2010年5月,IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights,包括基础版和企业版。<br> 2010年9月,Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。<br> 2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

altila 2012-06-12   745   0
P14

  Hadoop,ZooKeeper,HBase,hive(HQL)安装步骤 文档

首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。 Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(cent os 6.X)下安装使用。 准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。

xiangya123 2012-06-04   634   0
P23

  Yahoo的Hadoop教程 文档

欢迎来到Yahoo! Hadoop教程!这个系列教程将向你介绍Apache Hadoop系统的许多方向,还将向你展示:如何进行简单和高级的集群配置;如何使用分布式文件系统;如何使用分布式文件系统,如何开发复杂的Hadoop MapReduce应用,并且其它相关的分布式系统也提及。Hadoop是一个大规模分布式批处理架构,虽然它在单台计算机上也能使用,但它的真正能力是在成百上千计算机上运行时才显现出来,Hadoop可以高效地将大量工作高效地分布到一组计算机上。

linyouzhu 2012-05-31   6122   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档