大数据处理框架,Apache Spark 1.5.2 发布 资讯

Apache Spark 1.5.2 发布,此版本是个维护版本,包括 Spark 一些领域的稳定性修复,主要是:DataFrame API, Spark Streaming, PySpark, R, Spark

jopen 2015-11-15   21282   0

Apache Spark 2.0 最快今年4月亮相 资讯

6版的大数据技术Spark,下一个2.0版本预计4、5月释出,将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1

jopen 2016-02-28   10292   0
Spark  

别再比较Hadoop和Spark了,那不是设计人员的初衷 资讯

对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。

jopen 2016-03-09   8767   0
Spark   Hadoop  

Spark1.0.0生态圈一览 经验

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器 (Machines)、人(People)之间通过大规模集成,来展现

jopen 2014-06-08   48536   0

Spark在腾讯数据仓库TDW的应用 经验

据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查 询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支。Spark集群已稳定运行2年,积累了大量的案例和运

jopen 2014-11-29   53806   0

Databircks连城:Spark SQL结构化数据分析 经验

虽然提供了直观易用的API,却局限于单机,无法覆盖分布式大数据场景。在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本,引入了Spark DataFrame API,不仅为Scala、Pyth

jopen 2015-06-18   24182   0

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark St

jopen 2015-06-22   21976   0

基于Spark和Flask的一个可伸缩的电影推荐系统 经验

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于 协同过滤 建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差(ALS) 算法。 该教程由两部

jopen 2015-09-28   13227   0

如何使用Spark大规模并行构建索引 经验

12528 使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点。

toly_me 2016-02-01   25775   0

Spark,一种快速数据分析替代方案 经验

Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现

fmms 2012-01-05   77287   0
P44

  Spark Streaming 场景下两类倾斜问题的研究 文档

1. Spark Streaming 场景下两类倾斜问题的研究 by 余根茂淘宝技术部-数据挖掘与计算1 2. 大纲 问题背景 CPU资源倾斜问题 源数据倾斜问题 小结2淘宝技术部-数据挖掘与计算 3

n2n3 2015-01-19   8464   0

使用 pac4j 保护你的 Spark Java Web 应用 经验

)的面向SparkJava v2.3网页应用程序的 spark -pac4j v1.1 ( https://github.com/pac4j/spark-pac4j ) 发布了。它是一个 完整的安全库,简单且强大,支持认证和授权

morganlee 2016-02-27   18579   0

基于Apache Spark的机器学习及神经网络算法和应用 经验

前流行的思路,在IDF16技术课堂上,英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程,介绍了大规模分布式机器学习在欺诈检测、用户行为预测(稀疏

MarcelaSell 2016-04-14   34881   0

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

如何提高ElasticSearch 索引速度 。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计

ukon7587 2016-04-12   20807   0

让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎 经验

可用来动态规划计算机资源,或者业务优化。传统的批处理方法预测采用Impala和Spark两种方法,动态预测使用Spark Streaming。 任何预测的起点是基于海量历史数据和实时更新的数据来预

ususking 2016-05-18   35287   0

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是

flylong 2016-09-01   15746   0

如何让你的 Spark SQL 查询加速数十倍? 经验

先来回答标题所提的问题,这里的答案是列存储,下面对列存储及在列存储加速 Spark SQL 查询速度进行介绍 列存储 什么是列存储 传统的数据库通常以行单位做数据存储,而列式存储(后文均以列存储简称)以列为单位做数据存储,如下:

gentlesie 2016-09-22   19229   0
Spark SQL   SQL  

基于 Spark 的用户行为路径分析的产品化实践 经验

我们给出基于Spark的用户行为路径实践。 6)基于Spark的用户行为路径 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析 下面是一个Spark的套件图

AbeAntle 2016-11-30   13813   0

Apache Spark:大数据处理统一引擎 经验

有鉴于此,2009年加州大学伯克利分校团队开始了Apache Spark项目,旨在为分布式数据处理设计一个统一的引擎。 Spark具有类似于MapReduce的编程模型,但是使用称为“弹性分布式数

MorStarns 2016-12-05   9296   0

一个高效的分布式计算系统:Spark 经验

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop

jopen 2013-11-13   53687   0
1 2 3 4 5 6 7 8 9 10