P5

  10分钟内理解云计算分布式大数据处理框架Hadoop 文档

在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始……第1分钟:Hadoop要解决的问题是什么?答:Hadoop核心要解决长期IT界乃至人类社会的两大主题:海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储,Hadoop提出了解决方案,即HDFS.海量数据的分析:如何有效而快速的从海量数据中提取出有价值的信息,Hadoop给出了解决方案,即MapReduce.HDFS和MapReduce是Hadoop整个项目的基础和核心

xcxc 2015-08-23   651   0
P14

  基于Ubuntu14.04 的 Hadoop2.2 集群安装与配置 文档

基于Ubuntu的Hadoop集群安装与配置一、目的掌握Hadoop原理机制,熟悉Hadoop集群体系结构、核心技术。2、安装和配置Hadoop集群。二、原理Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。Hadoop中的分布式文件系统HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成Block,然后这些Block分散地存储于不同的DataNode上,每个Block还可以复制数份存储于不同的DataNode上,达到容错容灾之目的。

李新广 2015-07-10   4006   0
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题? 解读以Hadoop为核心,融合其他技术的平台系统Avro是实现融合的关键技术Cloudera在做-Hadoop应用体验Cloudera在做-Hadoop开发体验DevelopWithCDK讯飞如何应对这个技术挑战?讯飞大数据开放平台以数据导向为理念以Hadoop为核心融合优秀技术因地制宜的使用技术提升大数据用户体验

ee37 2015-07-05   501   0
P5

  hadoop集群配置范例 文档

HADOOP-0.20.2分布式集群配置。本文以安装和使用hadoop-0.20.2为例。 注意:三台机器dns和默认网关必须一致。登陆密码一致最好。而且务必三台机器互相ping通主机,即主机名和ip解析正确。

tony2007 2015-06-20   260   0
P150

  Hadoop 介绍 文档

Hadoop是什么?一个分布式文件系统和并行执行环境;一个软件集;让用户便捷地处理海量数据;Apache软件基金会下面的一个开源项目;目前Yahoo!是最主要的贡献者;Hadoop子项目Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目

tony2007 2015-06-20   625   0
P3

  广告商采用 Hadoop 文档

借助Apache Hadoop进行可靠的宣传和促销消费者从未在自己如何搜索、讨论和购买产品上生成如此多的数据。这种新数据对于品牌或产品的塑造和推广非常重要,但是并未以预先定义的表格化格式整齐排列。ApacheHadoop通过引入社交媒体、点击流、视频和交易数据,让这种“新”数据可供分析,无需预先定义数据模式。该新数据可与现有结构化数据集相结合,用于更深入的情绪分析和定向促销。现在媒体公司、机构和企业可存储新型数据并在更长时间保留一切内容进行广告宣传,实现客户忠诚度和投资回报。以下参考架构图呈现了我们的广告和媒体客户采用的方法组合,无论他们是对百货、家居装饰设计、儿童玩具还是对零售网站上的一切物品进行广告宣传。下面是我们的媒体和广告客户使用HDP来提升其收益的一些具体方式。挖掘百货和药物商店POS数据来确定高价值购物者一家营销分析公司专门跨诸多百货和药物商店收集收银台的有用信息。他们挖掘这种销售信息来进行购物篮分析,价格敏感度以及需求预测。借助运行在YARN上的和ApacheHive,帮助公司快速处理海量数据,跟上市场瞬息万变的节奏。

tony2007 2015-06-20   8022   0
P12

  CentOS的Hadoop集群配置 文档

以下集群配置内容,以两台机器为例。其中一台是master,另一台是slave1。 master上运行name node, data node, task tracker, job tracker,secondary name node; slave1上运行data node, task tracker。

tony2007 2015-06-20   486   0
P49

  文档式数据库在Hadoop集群中的应用 文档

提纲大数据回顾Batch Analytics传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客,论坛以及评论反映了客户的声音volume30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时,每分钟,甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理大数据:信息驱动力3v海量数据规模高时效性多样化50%组织拥有和处理>10TB数据10%已经处理>1PB电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动Hadoop与NoSQL–解决BigData的核武器Hadoop

tony2007 2015-06-19   1856   0
P6

  大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 文档

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。

tony2007 2015-06-19   2795   0
P81

  Hadoop练习 - MapReduce 进行数据查询和实现推简单荐系统 文档

Hadoop练习—MapReduce进行数据查询和实现推简单荐系统1  运行环境说明1.1 硬软件环境1.2 机器网络环境2  书面作业1:计算员工相关2.1 书面作业1内容2.2  实现过程2.2.1  准备测试数据2.2.2 问题1:求各个部门的总工资2.2.3   问题2:求各个部门的人数和平均工资2.2.4   问题3:求每个部门最早进入公司的员工姓名2.2.5   问题4:求各个城市的员工的总工资2.2.6   问题5:列出工资比上司高的员工姓名及其工资2.2.7   问题6:列出工资比公司平均工资要高的员工姓名及其工资2.2.8   问题7:列出名字以J开头的员工姓名及其所属部门名称

whongji 2015-06-02   3286   0
P10

  Hadoop 的两种开发模式介绍 文档

Hadoop的两种开发模式 一、一种是脱离集群环境的开发: 那么什么是脱离集群环境开发,因为集群也是有一个Java环境的。如果我们编写程序,脱离了集群,那么就是脱离集群开发。

小牛牛 2015-05-26   2658   0
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题?

w327 2015-05-25   779   0
P15

  基于Hadoop的研究及性能分析 文档

摘要在大数据到来的今天,本文首先介绍了Hadoop及其核心技术MapReduce的工作原理。详细讨论了Hadoop推测执行算法和SALS推测执行算法并对它们的性能进行分析。最后,分析了MapReduce框架的通用二路连接算法RSJ。为了提高性能,提出了一种基于DistributedCache的改进算法,通过减少mapper输出的数据来达到优化的目的。

mn6e 2015-05-25   2824   0
P83

  hadoop源码分析总结 文档

目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。 HDFS作为一个分布式文件系统,是所有这些项目的基础。分析好HDFS,有利于了解其他系统。由于Hadoop的HDFS和MapReduce是同一个项目,我们就把他们放在一块,进行分析。 下图是MapReduce整个项目的顶层包图和他们的依赖关系。Hadoop包之间的依赖关系比较复杂,原因是HDFS提供了一个分布式文件系统,该系统提供API,可以屏蔽本地文件系统和分布式文件系统,甚至象Amazon S3这样的在线存储系统。这就造成了分布式文件系统的实现,或者是分布式文件系统的底层的实现,依赖于某些貌似高层的功能。功能的相互引用,造成了蜘蛛网型的依赖关系。一个典型的例子就是包conf,conf用于读取系统配置,它依赖于fs,主要是读取配置文件的时候,需要使用文件系统,而部分的文件系统的功能,在包fs中被抽象了。

bluesky666 2015-05-05   2182   0
P11

  Hadoop 源码阅读总结 文档

基于NIO,Listener关注OP_ACCEPT事件,当有客户端连接过来,Accept后,从readers中选取一个Reader将客户端Channel注册到Reader中的NIO selector,并新建一个Connection对象关联客户端Channel,Reader关注OP_READ事件. 客户端建立连接后,首先发送的是ConnnectionHeader包含协议名,用户组信息,验证方法,Connection会根据以上信息进行校验.之后将是先读取4位的长度代表这次请求的数据的长度,然后一直等待事件触发读取够长度,将读取的数据 解码为调用id和param,新建一个Call对象(关联Connection)放入call队列中,handlers中的Handler会将Call中callQuene中取走.

bluesky666 2015-05-05   1964   0
P11

  Apache Hadoop 入门第一步 文档

Apache Hadoop项目开发可靠的、可扩展的(Scalable)、分布式计算的开源软件。Apache Hadoop软件库是一个框架,使用简单的编程模型,用于对跨计算机集群的大数据集进行分布式处理。使用ApacheHadoop软件库,可以从单个服务器扩展到上千台服务器,每台服务器都提供本地的计算后存储。Apache Hadoop软件库不再依赖于硬件实现高可用性,Apache Hadoop软件库可以检测并处理应用层的失效,从而在计算机集群之上提供高可用性服务。ApacheHadoop项目组成Apache Hadoop包括的子项目Hadoop Common:支撑其他子项目的通用工具;

xw56 2015-04-29   366   0
P4

  Hadoop 集群搭建 文档

机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。

serisboy12 2015-04-02   1475   0
P17

  Hadoop1.x以及2.x安装 文档

Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

小牛牛 2015-03-23   2407   0
P9

  hadoop 搭建与 eclipse 开发环境设置 文档

eclipse开发环境配置安装开发hadoop插件将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop--eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。 需要注意的是插件版本(及后面开发导入的所有jar包)与运行的hadoop一致,否则可能会出现EOFException异常。

nw37 2015-01-08   366   0
P19

  hadoop2.1.0编译安装教程 文档

由于现在hadoop2.0还处于beta版本,在apache官方网站上发布的beta版本中只有编译好的32bit可用,如果你直接下载安装在64bit的linux系统的机器上,运行会报一个INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的错误,但在实际测试中是可以正常安装并可以运行自带的wordcont例子,所以这 个错误不会导致hadoop2.1.0的安装和运行失败,此错误引起原因是由于鉴于性能问题以及某些Java类库的缺失,对于某些组件,Hadoop提供 了自己的本地实现。 这些组件保存在Hadoop的一个独立的动态链接的库里。这个库在*nix平台上叫libhadoop.so,此文件在发行的hadoop版本 lib/native目录下。

nw37 2015-01-08   509   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档