开源项目,开源代码,开源文档,开源新闻,开源社区

Apache Spark 1.5.2 发布，此版本是个维护版本，包括 Spark 一些领域的稳定性修复，主要是：DataFrame API, Spark Streaming, PySpark, R, Spark

jopen 2015-11-15 21282 0

Apache Spark

6版的大数据技术Spark，下一个2.0版本预计4、5月释出，将提供可运行在SQL/Dataframe上的结构化串流即时引擎，并统一化Dataset及DataFrame 大数据技术Spark今年1月才刚释出1

jopen 2016-02-28 10292 0

Spark

对Hadoop与Spark孰优孰劣这个问题，最准确的观点就是，设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度，因为它们处理的许多任务都一样，但是在一些方面又并不相互重叠。

jopen 2016-03-09 8767 0

Spark Hadoop

Spark生态圈，也就是BDAS（伯克利数据分析栈），是伯克利APMLab实验室精心打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成，来展现

jopen 2014-06-08 48536 0

Spark 分布式/云计算/大数据

据使用了Spark平台来支持挖掘分析类计算、交互式实时查询计算以及允许误差范围的快速查询计算，目前腾讯大数据拥有超过200台的Spark集群，并独立维护Spark和Shark分支。Spark集群已稳定运行2年，积累了大量的案例和运

jopen 2014-11-29 53806 0

Spark 分布式/云计算/大数据

虽然提供了直观易用的API，却局限于单机，无法覆盖分布式大数据场景。在Spark 1.3.0以Spark SQL原有的SchemaRDD为蓝本，引入了Spark DataFrame API，不仅为Scala、Pyth

jopen 2015-06-18 24182 0

Spark SQL 分布式/云计算/大数据

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spark St

jopen 2015-06-22 21976 0

Spark Hadoop 分布式/云计算/大数据

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于协同过滤建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差（ALS）算法。该教程由两部

jopen 2015-09-28 13227 0

Spark 推荐引擎

12528 使用Spark构建索引非常简单，因为spark提供了更高级的抽象rdd分布式弹性数据集，相比以前的使用Hadoop的MapReduce来构建大规模索引，Spark具有更灵活的api操作，性能更高，语法更简洁等一系列优点。

toly_me 2016-02-01 25775 0

分布式/云计算/大数据

Hadoop 平台的令人关注的优势。Spark 是一种可扩展的数据分析平台，它整合了内存计算的基元，因此，相对于 Hadoop 的集群存储方法，它在性能方面更具优势。Spark 是在 Scala 语言中实现

fmms 2012-01-05 77287 0

Spark 分布式/云计算/大数据

P44

1. Spark Streaming 场景下两类倾斜问题的研究 by 余根茂淘宝技术部-数据挖掘与计算1 2. 大纲问题背景 CPU资源倾斜问题源数据倾斜问题小结2淘宝技术部-数据挖掘与计算 3

n2n3 2015-01-19 8464 0

Spark 分布式/云计算/大数据 Java Scala

)的面向SparkJava v2.3网页应用程序的 spark -pac4j v1.1 ( https://github.com/pac4j/spark-pac4j ) 发布了。它是一个完整的安全库，简单且强大，支持认证和授权

morganlee 2016-02-27 18579 0

安全相关

前流行的思路，在IDF16技术课堂上，英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及神经网络算法和应用》的课程，介绍了大规模分布式机器学习在欺诈检测、用户行为预测(稀疏

MarcelaSell 2016-04-14 34881 0

Spark 神经网络算法机器学习

如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计

ukon7587 2016-04-12 20807 0

Spark Hadoop 分布式/云计算/大数据 ElasticSearch

可用来动态规划计算机资源，或者业务优化。传统的批处理方法预测采用Impala和Spark两种方法，动态预测使用Spark Streaming。任何预测的起点是基于海量历史数据和实时更新的数据来预

ususking 2016-05-18 35287 0

Spark Impala 分布式/云计算/大数据

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是

flylong 2016-09-01 15746 0

Hadoop HBase 分布式系统分布式/云计算/大数据

先来回答标题所提的问题，这里的答案是列存储，下面对列存储及在列存储加速 Spark SQL 查询速度进行介绍列存储什么是列存储传统的数据库通常以行单位做数据存储，而列式存储（后文均以列存储简称）以列为单位做数据存储，如下：

gentlesie 2016-09-22 19229 0

Spark SQL SQL

我们给出基于Spark的用户行为路径实践。 6）基于Spark的用户行为路径 Spark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析下面是一个Spark的套件图

AbeAntle 2016-11-30 13813 0

Spark 数据挖掘分布式/云计算/大数据

有鉴于此，2009年加州大学伯克利分校团队开始了Apache Spark项目，旨在为分布式数据处理设计一个统一的引擎。 Spark具有类似于MapReduce的编程模型，但是使用称为“弹性分布式数

MorStarns 2016-12-05 9296 0

Spark 大数据分布式/云计算/大数据

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop

jopen 2013-11-13 53687 0

Spark 分布式/云计算/大数据

大数据处理框架，Apache Spark 1.5.2 发布资讯

Apache Spark 2.0 最快今年4月亮相资讯

别再比较Hadoop和Spark了，那不是设计人员的初衷资讯

Spark1.0.0生态圈一览经验

Spark在腾讯数据仓库TDW的应用经验

Databircks连城：Spark SQL结构化数据分析经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

基于Spark和Flask的一个可伸缩的电影推荐系统经验

如何使用Spark大规模并行构建索引经验

Spark，一种快速数据分析替代方案经验

Spark Streaming 场景下两类倾斜问题的研究文档

使用 pac4j 保护你的 Spark Java Web 应用经验

基于Apache Spark的机器学习及神经网络算法和应用经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

如何让你的 Spark SQL 查询加速数十倍？经验

基于 Spark 的用户行为路径分析的产品化实践经验

Apache Spark：大数据处理统一引擎经验

一个高效的分布式计算系统：Spark 经验

Spark MLLib 的相关搜索

关键词

大数据处理框架，Apache Spark 1.5.2 发布 资讯

Apache Spark 2.0 最快今年4月亮相 资讯

别再比较Hadoop和Spark了，那不是设计人员的初衷 资讯

Spark1.0.0生态圈一览 经验

Spark在腾讯数据仓库TDW的应用 经验

Databircks连城：Spark SQL结构化数据分析 经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接 经验

基于Spark和Flask的一个可伸缩的电影推荐系统 经验

如何使用Spark大规模并行构建索引 经验

Spark，一种快速数据分析替代方案 经验

Spark Streaming 场景下两类倾斜问题的研究 文档

使用 pac4j 保护你的 Spark Java Web 应用 经验

基于Apache Spark的机器学习及神经网络算法和应用 经验

自定义Spark Partitioner提升es-hadoop Bulk效率 经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎 经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构 经验

如何让你的 Spark SQL 查询加速数十倍？ 经验

基于 Spark 的用户行为路径分析的产品化实践 经验

Apache Spark：大数据处理统一引擎 经验

一个高效的分布式计算系统：Spark 经验

Spark MLLib 的相关搜索

关键词

大数据处理框架，Apache Spark 1.5.2 发布资讯

Apache Spark 2.0 最快今年4月亮相资讯

别再比较Hadoop和Spark了，那不是设计人员的初衷资讯

Spark1.0.0生态圈一览经验

Spark在腾讯数据仓库TDW的应用经验

Databircks连城：Spark SQL结构化数据分析经验

怎样利用Spark Streaming和Hadoop实现近实时的会话连接经验

基于Spark和Flask的一个可伸缩的电影推荐系统经验

如何使用Spark大规模并行构建索引经验

Spark，一种快速数据分析替代方案经验

Spark Streaming 场景下两类倾斜问题的研究文档

使用 pac4j 保护你的 Spark Java Web 应用经验

基于Apache Spark的机器学习及神经网络算法和应用经验

自定义Spark Partitioner提升es-hadoop Bulk效率经验

让数据告诉你未来：Spark Streaming+Kudu+Impala构建预测引擎经验

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构经验

如何让你的 Spark SQL 查询加速数十倍？经验

基于 Spark 的用户行为路径分析的产品化实践经验

Apache Spark：大数据处理统一引擎经验