登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
Spark
(共
125
篇经验)
0
推荐
22K
浏览
Spark 1.6.0 新手快速入门
本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读 Spark Program...
k9988xhil
9年前
Scala
Spark
分布式/云计算/大数据
0
推荐
10K
浏览
《Spark官方文档》集群模式概览
本文简要描述了Spark在集群中各个组件如何运行。想了解如何在集群中启动Spark应用,请参考 application submission guide 。
fyfg0690
9年前
Spark
分布式/云计算/大数据
0
推荐
12K
浏览
Spark——共享变量
Spark执行不少操作时都依赖于 闭包函数 的调用,此时如果闭包函数使用到了外部变量驱动程序在使用行动操作时传递到集群中各worker节点任务时就会进行一系列操作:
gy471150
9年前
Spark
分布式/云计算/大数据
0
推荐
11K
浏览
Spark Application的调度算法
要想明白spark application调度机制,需要回答一下几个问题: 1.谁来调度? 2.为谁调度? 3.调度什么? 3.何时调度? 4.调度算法
NorineXGII
9年前
Spark
分布式/云计算/大数据
0
推荐
26K
浏览
iOS XMPP:Openfire+spark环境搭建
iOS XMPP:Openfire+spark环境搭建
RosCrowder
9年前
移动开发
Spark
Openfire
iOS开发
0
推荐
30K
浏览
Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至H...
FloridaStil
9年前
Spark
分布式/云计算/大数据
0
推荐
55K
浏览
数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka
在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆栈仅由数个简单部分组成,但其能够实现...
电子天府
9年前
Cassandra
Kafka
Spark
分布式/云计算/大数据
0
推荐
54K
浏览
Apache Spark介绍及案例展示
2013年年底,我第一次接触到Spark,当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后,我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解...
Ros62P
9年前
Spark
分布式/云计算/大数据
0
推荐
59K
浏览
在Eclipse上运行Spark(Standalone,Yarn-Client)
我们知道有eclipse的Hadoop插件,能够在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式运行程序。那么我们可不可以直接在eclip...
ZXF0109521
9年前
Eclipse
Spark
YARN
分布式/云计算/大数据
0
推荐
15K
浏览
Spark Tungsten-sort Based Shuffle 分析
Tungsten-sort 算不得一个全新的shuffle 方案,它在特定场景下基于类似现有的Sort Based Shuffle处理流程,对内存/CPU/Cache使用做了非常大的优化。带来高...
961408017
9年前
Spark
分布式/云计算/大数据
0
推荐
56K
浏览
Spark设计理念与基本架构
《深入理解Spark:核心思想与源码分析》一书第一章的内容请看链接《第1章 环境准备》
没心没肺
9年前
Spark
分布式/云计算/大数据
0
推荐
13K
浏览
Spark本地开发环境搭建
本文使用Scala2.10.6,sbt。请自行提前装好。
daidai141
9年前
Spark
分布式/云计算/大数据
0
推荐
27K
浏览
kafka+spark streaming+redis学习
针对这段时间所学的做了一个简单的综合应用,应用的场景为统计一段时间内各个小区的网络信号覆盖率,计算公式如下所示:
jopen
9年前
Redis
Kafka
Spark
分布式/云计算/大数据
0
推荐
78K
浏览
Spark的性能调优
首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
22K
浏览
浅谈Spark应用程序的性能调优
Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
21K
浏览
不同的瑞士军刀:对比 Spark 和 MapReduce
Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop...
jopen
9年前
MapReduce
Spark
分布式/云计算/大数据
0
推荐
23K
浏览
Spark Shuffle之Sort Shuffle
正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
12K
浏览
Spark Shuffle之Hash Shuffle
正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
jopen
9年前
Spark
哈希表
分布式/云计算/大数据
0
推荐
8K
浏览
Spark核心——RDD
Spark中最核心的概念为 RDD(Resilient Distributed DataSets) 中文为: 弹性分布式数据集 ,RDD为对分布式内存对象的 抽象它表示一个 被分区不可变 且能 ...
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
23K
浏览
在YARN上运行Spark
在Spark0.6.0 版本开始支持 YARN 模式,随后的版本在逐渐地完善。
jopen
9年前
Spark
YARN
分布式/云计算/大数据
1
2
3
4
5
6
7
经验分享,提升职场影响力
投稿
热门问答
热门文档