登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
Spark
(共
125
篇经验)
0
推荐
84K
浏览
Spark 伪分布式 & 全分布式 安装指南
3月31日是 Spark 五周年纪念日,从第一个公开发布的版本开始,Spark走过了不平凡的5年:从刚开始的默默无闻,到13年的鹊起,14年的大爆发。Spark核心之上有分布式的机器学习,SQL...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
38K
浏览
Spark RDD API详解(一) Map和Reduce
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的数据是分区存储的,这样不同分区的数...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
49K
浏览
Storm和Spark Streaming框架对比
Storm和Spark Streaming两个都是分布式流处理的开源框架。但是这两者之间的区别还是很大的,正如你将要在下文看到的。
6x7d
10年前
Spark
分布式/云计算/大数据
0
推荐
16K
浏览
Java的微型Web框架 Spark 简易入门教程
Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它的目的是让你以最小的代价创建出一个Java Web应用。
jopen
10年前
Web框架
Spark
0
推荐
40K
浏览
Spark on Yarn: Cluster模式Scheduler实现
Spark on Yarn分yarn-cluster和yarn-client两种模式。 本文通过Cluster模式的TaskScheduler实现入手,梳理一遍spark on yarn的大致实现逻辑。
c6g3
10年前
Spark
分布式/云计算/大数据
0
推荐
21K
浏览
Spark on Mesos: 粗粒度与细粒度实现分析
顺着昨天spark standalone实现那篇文章继续扯淡,看看Mesos Scheduler的两种实现的异同。 对我来说,回过头再仔细看Spark在这一层的实现,思路又清晰了许多。
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
14K
浏览
梳理对Spark Standalone的理解
本文不打算从源码分析的角度看standalone如何实现,甚至有的模块和类在分析中都是忽略掉的。 本文目的是透过spark的standalone模式,看类似spark这种执行模式的系统,...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
29K
浏览
大数据计算平台Spark内核全面解读
Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
29K
浏览
Spark 内核研究
Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
109K
浏览
Spark本地安装和简单示例
Spark是基于内存的大数据分析平台,由UC Berkely AMP lab发布的一大神器。相比Hadoop而言,其最大的优势是基于内存,这样可以极大提高其速度和通用性。
by57
10年前
Spark
分布式/云计算/大数据
0
推荐
24K
浏览
搭建Spark完全分布式集群
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
45K
浏览
Spark的任务调度
本文尝试从源码层面梳理Spark在任务调度与资源分配上的做法。
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
58K
浏览
Spark初探
Spark 基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
30K
浏览
Spark on Yarn
最近从Hadoop 1.x 转到Hadoop 2.x 同时将一些java 程序转为Scala的程序将平台上的代码减少了很多,在实施的过程中,开到一些Spark相关的YARN的部署上都是基于之前的...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
65K
浏览
分布式计算 Spark 入门介绍
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
13K
浏览
Databricks Spark 知识库
Databricks Spark 知识库
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
114K
浏览
搭建hadoop/spark集群环境
hadoop和spark集群的搭建,主要用到了hadoop2.5.2、spark1.2.0、scala2.11.4
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
64K
浏览
网易大数据平台的Spark技术实践
对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
33K
浏览
视频类网站大数据生态 Spark在爱奇艺的应用实践
视频类网站大数据生态 Spark在爱奇艺的应用实践
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
136K
浏览
Spark 配置指南
Spark可以在三个地方配置系统: Spark属性控制大部分的应用参数。 这些属性可以通过SparkConf对象, 或者Java系统属性. 环境变量可以为每台机器配置,比如IP地址, 通...
jopen
10年前
Spark
分布式/云计算/大数据
1
2
3
4
5
6
7
经验分享,提升职场影响力
投稿
热门问答
热门文档