0推荐
46K 浏览

Spark:比Hadoop更强大的分布式数据计算项目

Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed dataset...
0推荐
54K 浏览

Spark在腾讯数据仓库TDW的应用

为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群...
0推荐
17K 浏览

Spark实战:单节点本地模式搭建Spark运行环境

Spark实战:单节点本地模式搭建Spark运行环境
0推荐
37K 浏览

内存计算技术那家强?SPARK vs HANA

最近业界有很多技术和产品都认为属于内存计算的范畴,由于我个人也从事于内存计算产品的研发,所以想借个机会,跟各位聊聊到底什么是内存计算技术,以及比较一些现在两种比较主流的内存计算技术Apache ...
0推荐
109K 浏览

Spark介绍

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop Map...
0推荐
101K 浏览

Spark与Hadoop的结合

Spark可以直接对HDFS进行数据的读写,同样支持Spark on YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive...
0推荐
51K 浏览

Spark实战1:单节点本地模式搭建Spark运行环境

Spark实战1:单节点本地模式搭建Spark运行环境
0推荐
93K 浏览

Spark SQL编程指南

Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。它的核心组件是一个新增的RDD类型JavaSchemaRDD。JavaSchemaRDD由Row对象和表述这个行...
0推荐
21K 浏览

Spark Internals

本文主要讨论 Apache Spark 的设计与实现,重点关注其设计思想、运行原理、实现架构及性能调优,附带讨论与 Hadoop MapReduce 在设计与实现上的区别。不喜欢将该文档称之为“...
0推荐
163K 浏览

Spark编程指南

总的来说,每一个Spark应用程序,都是由一个驱动程序组成,它运行用户的main函数,并且在一个集群上执行各种各样的并行操作。Spark提供的主要的抽象(概念)是一个弹性分布式数据集,它是一个元...
0推荐
89K 浏览

集群计算平台:Spark

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。
jopen 10年前   
0推荐
51K 浏览

什么是spark

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的co...
0推荐
52K 浏览

hadoop-2.2.0+spark1.1.0安装过程

hadoop-2.2.0+spark1.1.0安装过程
0推荐
34K 浏览

Hadoop、Spark、HBase与Redis的适用性讨论(全文)

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几...
0推荐
49K 浏览

Spark1.0.0生态圈一览

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器 (Machines)、人(People)之间通过大规模集成,...
0推荐
15K 浏览

Spark:一个高效的分布式计算系统

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop Map...
0推荐
43K 浏览

Java 微型Web框架:sparkjava

sparkjava是一个受Sinatra启发的微型Web框架,用于采用Java快速快速创建Web应用。
jopen 10年前   
0推荐
186K 浏览

spark用程序提交任务到yarn

因为spark文档中只介绍了两种用脚本提交到yarn的例子,并没有介绍如何通过程序提交yarn,但是我们的需求需要这样。网上很难找到例子,经过几天摸索,终于用程序提交到yarn成功,下面总结一下。
0推荐
32K 浏览

Spark 快速理解

Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。
0推荐
103K 浏览

Scala-Spark环境搭建配置

Scala-Spark环境搭建配置
1 2 3 4 5 6 7

经验分享,提升职场影响力

投稿

热门问答

    热门文档