Spark - 开源经验 - 第3页

0推荐

22K 浏览

本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用，然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读 Spark Program...

k9988xhil 9年前

Scala Spark 分布式/云计算/大数据

0推荐

10K 浏览

本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用，请参考 application submission guide 。

fyfg0690 9年前

Spark 分布式/云计算/大数据

0推荐

12K 浏览

Spark执行不少操作时都依赖于闭包函数的调用，此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作：

gy471150 9年前

Spark 分布式/云计算/大数据

0推荐

11K 浏览

要想明白spark application调度机制，需要回答一下几个问题： 1.谁来调度？ 2.为谁调度？ 3.调度什么？ 3.何时调度？ 4.调度算法

NorineXGII 9年前

Spark 分布式/云计算/大数据

0推荐

26K 浏览

iOS XMPP：Openfire+spark环境搭建

RosCrowder 9年前

移动开发 Spark Openfire iOS开发

0推荐

30K 浏览

目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至H...

FloridaStil 9年前

Spark 分布式/云计算/大数据

0推荐

55K 浏览

在今天的文章中，我们将着重探讨如何利用SMACK（即Spark、Mesos、Akka、Cassandra以及Kafka）堆栈构建可扩展数据处理平台。虽然这套堆栈仅由数个简单部分组成，但其能够实现...

电子天府 9年前

Cassandra Kafka Spark 分布式/云计算/大数据

0推荐

54K 浏览

2013年年底，我第一次接触到Spark，当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后，我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解...

Ros62P 9年前

Spark 分布式/云计算/大数据

0推荐

59K 浏览

我们知道有eclipse的Hadoop插件，能够在eclipse上操作hdfs上的文件和新建mapreduce程序，以及以Run On Hadoop方式运行程序。那么我们可不可以直接在eclip...

ZXF0109521 9年前

Eclipse Spark YARN 分布式/云计算/大数据

0推荐

15K 浏览

Tungsten-sort 算不得一个全新的shuffle 方案，它在特定场景下基于类似现有的Sort Based Shuffle处理流程，对内存/CPU/Cache使用做了非常大的优化。带来高...

961408017 9年前

Spark 分布式/云计算/大数据

0推荐

56K 浏览

《深入理解Spark：核心思想与源码分析》一书第一章的内容请看链接《第1章环境准备》

没心没肺 9年前

Spark 分布式/云计算/大数据

0推荐

13K 浏览

本文使用Scala2.10.6，sbt。请自行提前装好。

daidai141 9年前

Spark 分布式/云计算/大数据

0推荐

27K 浏览

针对这段时间所学的做了一个简单的综合应用，应用的场景为统计一段时间内各个小区的网络信号覆盖率，计算公式如下所示：

jopen 9年前

Redis Kafka Spark 分布式/云计算/大数据

0推荐

78K 浏览

首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

22K 浏览

Spark是基于内存的分布式计算引擎，以处理的高效和稳定著称。然而在实际的应用开发过程中，开发者还是会遇到种种问题，其中一大类就是和性能相关。在本文中，笔者将结合自身实践，谈谈如何尽可能地提高应用程序性能。

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

21K 浏览

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop...

jopen 9年前

MapReduce Spark 分布式/云计算/大数据

0推荐

23K 浏览

正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

12K 浏览

正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-...

jopen 9年前

Spark 哈希表分布式/云计算/大数据

0推荐

8K 浏览

Spark中最核心的概念为 RDD（Resilient Distributed DataSets）中文为：弹性分布式数据集，RDD为对分布式内存对象的抽象它表示一个被分区不可变且能 ...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

23K 浏览

在Spark0.6.0 版本开始支持 YARN 模式，随后的版本在逐渐地完善。

jopen 9年前

Spark YARN 分布式/云计算/大数据

Spark 1.6.0 新手快速入门

《Spark官方文档》集群模式概览

Spark——共享变量

Spark Application的调度算法

iOS XMPP：Openfire+spark环境搭建

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

数据处理平台架构中的SMACK组合：Spark、Mesos、Akka、Cassandra以及Kafka

Apache Spark介绍及案例展示

在Eclipse上运行Spark(Standalone,Yarn-Client)

Spark Tungsten-sort Based Shuffle 分析

Spark设计理念与基本架构

Spark本地开发环境搭建

kafka+spark streaming+redis学习

Spark的性能调优

浅谈Spark应用程序的性能调优

不同的瑞士军刀：对比 Spark 和 MapReduce

Spark Shuffle之Sort Shuffle

Spark Shuffle之Hash Shuffle

Spark核心——RDD

在YARN上运行Spark

热门问答

热门文档