P19

  Spark streaming 的监控和优化 文档

Apache Spark is a fast and general engine for large-scale data processing. Speed Ease of Use Generality Integrated with Hadoop。Spark Streaming is a sub-project of Apache Spark. Spark is a batch processing platform similar to Apache Hadoop, and Spark Streaming is a real-time processing tool that runs on top of the Spark engine.

jszhaogy 2016-01-28   387   0
P12

  (12)使用数据分区优化join 文档

解决低效问题 我们知道userData 表比每五分钟的时间日志大很多,这浪费了很多工作。userData 每次调用的时候,都通过网络hashed和shuffled,尽管它不变化。 在userData使用partitionBy()

ngn6 2015-08-12   548   0
P12

  (11)数据分区 文档

Spark是怎样分割工作的 每个RDD都有一个固定个数的partitions,决定了当执行RDD操作时候的并行度。 Spark会尝试基于集群大小的默认值,一些情况下,你需要优化并行度。 当我们执行聚合或者分组操作的时候,我们可以让Spark使用特定个数的partitions。

ngn6 2015-08-12   1687   0
P14

  (9)KeyValue对RDDs(一) 文档

KeyValue对RDDs(Pairs RDDS)一般用来聚合操作。 将数据转换成Key/value格式的方法:ETL (extract, transform,and load)操作 extract:字段抽取 transform:已有的RDD转换 load:加载的时候 parallelize()

ngn6 2015-08-12   513   0
P12

  (8)RDDs的特性 文档

Spark维护着RDDs之间的依赖关系和创建关系, 叫做 血统关系图(lineage graph)。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据(当一些存储的RDD丢失的时候)。

ngn6 2015-08-12   482   0
P14

  (5)RDDs介绍 文档

RDDs Resilient distributed datasets(弹性分布式数据集,简写RDDs)。 一个RDD就是一个不可改变的分布式集合对象,内部由许多partitions(分片)组成,每个partition都包括一部分数据,这些partitions可以在集群的不同节点上计算 Partitions是Spark中的并行处理的单元。Spark顺序的,并行的处理partitions。 RDDs 是 Spark的分发数据和计算的基础抽象类,是Spark的核心概念。 RDD可以包含 Python, Java, 或者 Scala中的任何数据类型,包括用户自定义的类。 在Spark中,所有的计算都是通过RDDs的创建,转换,操作完成的。 RDD具有lineage graph(血统关系图)。

ngn6 2015-08-12   3530   0
P16

  (6)RDDs基本操作之Transformations 文档

Transformations的特点: Transformations返回一个崭新的RDD, filter() 操作返回一个指针,指向一个崭新的RDD,原RDD不受影响,能够在后面重复利用。

ngn6 2015-08-12   449   0
P16

  (7)RDDs基本操作之Actions 文档

在RDD上计算出来一个结果,把结果返回给driver program或者保存在外部文件系统上,像count() 函数 first()。

ngn6 2015-08-12   1858   0
P44

  Spark Streaming 场景下两类倾斜问题的研究 文档

数据挖掘与计算大纲问题背景CPU资源倾斜问题源数据倾斜问题小结淘宝技术部-数据挖掘与计算问题背景Spark Streaming在淘宝!双122013.12.12双112014.11.11双122014.12.12 SparkStreaming商品推荐店铺推荐行业个性化推荐…淘宝技术部-数据挖掘与计算问题背景使用过程中我们经常碰到:内存还剩很多,CPU资源缺消耗殆尽,造成作业无法提交任务的数据本地化有时候会很差,数据需要进行网络间的迁移CPU资源利用率问题源数据的倾斜问题淘宝技术部-数据挖掘与计算问题

n2n3 2015-01-19   8464   0
P15

  基于Spark/hbase的数据分析平台及SparkSQl使用经验分享 文档

基于Spark/hbase的数据分析平台及SparkSQl使用经验分享

cdop 2014-12-29   732   0

关键词

最新上传

热门文档