P14

  (5)RDDs介绍 文档

RDDs Resilient distributed datasets(弹性分布式数据集,简写RDDs)。 一个RDD就是一个不可改变的分布式集合对象,内部由许多partitions(分片)组成,每个partition都包括一部分数据,这些partitions可以在集群的不同节点上计算 Partitions是Spark中的并行处理的单元。Spark顺序的,并行的处理partitions。 RDDs 是 Spark的分发数据和计算的基础抽象类,是Spark的核心概念。 RDD可以包含 Python, Java, 或者 Scala中的任何数据类型,包括用户自定义的类。 在Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的。 RDD具有lineage graph(血统关系图)。

ngn6 2015-08-12   3530   0
P16

  (6)RDDs基本操作之Transformations 文档

Transformations的特点: Transformations返回一个崭新的RDD, filter() 操作返回一个指针,指向一个崭新的RDD,原RDD不受影响,能够在后面重复利用。

ngn6 2015-08-12   449   0
P16

  (7)RDDs基本操作之Actions 文档

在RDD上计算出来一个结果,把结果返回给driver program或者保存在外部文件系统上,像count() 函数 first()。

ngn6 2015-08-12   1858   0
P19

  (1)Spark简介 文档

Spark是快速的 很多任务能够秒级完成,对于一些特定的工作,Spark比Mapreduce快10-20倍。 Spark扩充了流行的Mapreduce计算模型,使Spark更高效地支持更多类型的计算,包括交互式查询,和流处理。 速度快的另一个主要原因就是,能够在内存中计算。

ngn6 2015-08-12   775   0
P11

  (4)Spark程序的开发和运行 文档

Spark程序的开发和运行。创建SparkContext、WordCount程序。

ngn6 2015-08-12   2542   0
P15

  (3)Spark开发环境搭建 文档

使用Scala+IntelliJ IDEA+Sbt搭建开发环境

ngn6 2015-08-12   2984   0
P33

  中国工程院院士李德毅:云计算再认识 文档

去年的云计算大会上,最精彩的报告非李德毅院士莫属,他的演讲激情澎湃,特别有感染力,听报告的人往往会跟他一起热血沸腾。今天,第七届中国云计算大会在北京举行,中国电子学会云计算专家委员会名誉主任委员,中国大数据专家委员会顾问,中国工程院院士李德毅在演讲中说,后工业革命时期,云计算正在让信息服务实现社会化、集约化和专业化。信息技术将成为全社会公共的基础设施,成为物联网的基石。李德毅院士的报告题目为《云计算再认识》,他在报告中回顾了过去历届云计算大会上认知,首次提出云计算的天梯概念。李德毅认为从图灵计算到网络计算,云计算的交互性远远超出图灵机,互联网不是一台虚拟的图灵机,交互导致众包、众挖和群体智能。

lvqj 2015-08-07   455   0
P2

  Spark 部署与实践 文档

Apache Spark是立足于内存计算的一种快速数据分析方案。其性能已经得到大家的认可,但我们该如何部署与实施Spark呢?本专题将为您介绍不同模式的Spark部署。头条推荐Apache Spark三种分布式部署方式比较目前ApacheSpark支持三种分布式部署方式,分别是standalone、sparkonmesos和sparkonYARN。

yxwpx 2015-07-21   506   0
P31

  从传统应用到云原生应用的重构 文档

WHAT“传统”与“云原生”传统应用观察故障有可能发生随时备份数据,用于服务恢复不惜一切代价保证服务器的运行当服务器宕机时-摊上大事了基础设施恢复–自动或者手动应用恢复–手动应用模块紧耦合无法根据负载自动扩展端口变化负载增加配置变化环境依赖代码变化RTO/RPO云原生应用存储节点存储节点存储节点存储节点CloudAZ1AZ2依赖声明部署模板观察对比CloudStack Openstack How从“传统”到“云原生”传统应用,如何迁移到云的平台快速的帮助业务增长(Re-FactororReplace)把一个旧的非核心应用替换或者优化为SaaS应用快速降低IT运维成本(Re-Host)将现有应用按照原样迁移到云平台上从历史投资中挖掘出最大价值(Re-Architect)将现有核心应用重新架构为松耦合

mmntt 2015-07-19   4170   0
P14

  基于Ubuntu14.04 的 Hadoop2.2 集群安装与配置 文档

基于Ubuntu的Hadoop集群安装与配置一、目的掌握Hadoop原理机制,熟悉Hadoop集群体系结构、核心技术。2、安装和配置Hadoop集群。二、原理Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。Hadoop中的分布式文件系统HDFS由一个管理结点(NameNode)和N个数据结点(DataNode)组成,每个结点均是一台普通的计算机。在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文件,查看文件内容等。但其底层实现上是把文件切割成Block,然后这些Block分散地存储于不同的DataNode上,每个Block还可以复制数份存储于不同的DataNode上,达到容错容灾之目的。

李新广 2015-07-10   4006   0
P11

  Storm 应用场景 文档

Storm处理数据的方式是基于消息的流水线处理,因此特别适合无状态计算,也就是计算单元的依赖的数据全部在接受的消息中可以找到,并且最好一个数据流不依赖另外一个数据流。因此,常常用于1、日志分析,从日志中分析出特定的数据,并将分析的结果存入外部存储器如数据库。目前,主流日志分析技术就使用Storm管道系统,将一个数据从一个系统传输到另外一个系统,比如将数据库同步到Hadoop2、消息转化器,将接受到的消息按照某种格式进行转化,存储到另外一个系统如消息中间件

redey 2015-07-10   4591   0
P3

  大数据分析的流程浅析之一:大数据采集过程分析 文档

大数据分析的流程浅析之一:大数据采集过程分析数据采集,就是使用某种技术或手段,将数据收集起来并存储在某种设备上,这种设备可以是磁盘或磁带。区别于普通的数据分析,大数据分析的数据采集在数据收集和存储技术上都是不同的。具体情况如下:1.大数据收集过程在收集阶段,大数据分析在时空两个方面都有显著的不同。在时间维度上,为了获取更多的数据,大数据收集的时间频度大一些,有时也叫数据采集的深度。在空间维度上,为了获取更准确的数据,数据采集点设置得会更密一些。以收集一个面积为100平方米的葡萄园的平均温度为例。小数据时代,由于成本的原因,葡萄园主只能在葡萄园的中央设置一个温度计用来计算温度,而且每一小时观测一次,这样一天就只有24个数据。而在大数据时代,在空间维度上,可以设置100个温度计,即每个1平方米一个温度计;

czh_3104 2015-07-06   608   0
P36

  以Hadoop为核心的大数据开放平台建设 文档

以Hadoop为核心的大数据开放平台建设孙利兵驾驭大数据大数据技术发展大数据技术发展大数据技术有哪些不足大数据技术本身百花齐放,如何用好每项技术是个难题大数据技术内部融合性不够大数据技术与其他传统技术的融合性不够我们缺少什么?缺乏一个能融合现有大数据技术的技术技术领域如何解决大数据技术应用难的问题? 解读以Hadoop为核心,融合其他技术的平台系统Avro是实现融合的关键技术Cloudera在做-Hadoop应用体验Cloudera在做-Hadoop开发体验DevelopWithCDK讯飞如何应对这个技术挑战?讯飞大数据开放平台以数据导向为理念以Hadoop为核心融合优秀技术因地制宜的使用技术提升大数据用户体验

ee37 2015-07-05   501   0
P5

  hadoop集群配置范例 文档

HADOOP-0.20.2分布式集群配置。本文以安装和使用hadoop-0.20.2为例。 注意:三台机器dns和默认网关必须一致。登陆密码一致最好。而且务必三台机器互相ping通主机,即主机名和ip解析正确。

tony2007 2015-06-20   260   0
P150

  Hadoop 介绍 文档

Hadoop是什么?一个分布式文件系统和并行执行环境;一个软件集;让用户便捷地处理海量数据;Apache软件基金会下面的一个开源项目;目前Yahoo!是最主要的贡献者;Hadoop子项目Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目

tony2007 2015-06-20   625   0
P3

  广告商采用 Hadoop 文档

借助Apache Hadoop进行可靠的宣传和促销消费者从未在自己如何搜索、讨论和购买产品上生成如此多的数据。这种新数据对于品牌或产品的塑造和推广非常重要,但是并未以预先定义的表格化格式整齐排列。ApacheHadoop通过引入社交媒体、点击流、视频和交易数据,让这种“新”数据可供分析,无需预先定义数据模式。该新数据可与现有结构化数据集相结合,用于更深入的情绪分析和定向促销。现在媒体公司、机构和企业可存储新型数据并在更长时间保留一切内容进行广告宣传,实现客户忠诚度和投资回报。以下参考架构图呈现了我们的广告和媒体客户采用的方法组合,无论他们是对百货、家居装饰设计、儿童玩具还是对零售网站上的一切物品进行广告宣传。下面是我们的媒体和广告客户使用HDP来提升其收益的一些具体方式。挖掘百货和药物商店POS数据来确定高价值购物者一家营销分析公司专门跨诸多百货和药物商店收集收银台的有用信息。他们挖掘这种销售信息来进行购物篮分析,价格敏感度以及需求预测。借助运行在YARN上的和ApacheHive,帮助公司快速处理海量数据,跟上市场瞬息万变的节奏。

tony2007 2015-06-20   8022   0
P12

  CentOS的Hadoop集群配置 文档

以下集群配置内容,以两台机器为例。其中一台是master,另一台是slave1。 master上运行name node, data node, task tracker, job tracker,secondary name node; slave1上运行data node, task tracker。

tony2007 2015-06-20   486   0
P49

  文档式数据库在Hadoop集群中的应用 文档

提纲大数据回顾Batch Analytics传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客,论坛以及评论反映了客户的声音volume30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时,每分钟,甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理大数据:信息驱动力3v海量数据规模高时效性多样化50%组织拥有和处理>10TB数据10%已经处理>1PB电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动Hadoop与NoSQL–解决BigData的核武器Hadoop

tony2007 2015-06-19   1856   0
P6

  大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 文档

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。

tony2007 2015-06-19   2795   0
P81

  Hadoop练习 - MapReduce 进行数据查询和实现推简单荐系统 文档

Hadoop练习—MapReduce进行数据查询和实现推简单荐系统1  运行环境说明1.1 硬软件环境1.2 机器网络环境2  书面作业1:计算员工相关2.1 书面作业1内容2.2  实现过程2.2.1  准备测试数据2.2.2 问题1:求各个部门的总工资2.2.3   问题2:求各个部门的人数和平均工资2.2.4   问题3:求每个部门最早进入公司的员工姓名2.2.5   问题4:求各个城市的员工的总工资2.2.6   问题5:列出工资比上司高的员工姓名及其工资2.2.7   问题6:列出工资比公司平均工资要高的员工姓名及其工资2.2.8   问题7:列出名字以J开头的员工姓名及其所属部门名称

whongji 2015-06-02   3286   0
1 2 3 4 5 6 7 8 9 10

关键词

最新上传

热门文档