开源项目,开源代码,开源文档,开源新闻,开源社区

Spark 是目前相当受欢迎的开源丛集运算架构，相较于 Hadoop，Spark 拥有敏捷快速的效能和便于应用的优势，因其采用内存储存数据资料，使它拥有高效运算；而通用的 API 协助使用者编写复杂的平行运算程序，让

jopen 2015-09-15 6373 0

Spark

000个查询，系统是无法承受的。 André Camilo 给出的第一种方案是使用Spark和ElasticSearch：我们创建了一个Spark Streaming的数据流管道，该管道首先从JMS队列中读取消息

jopen 2015-12-17 20256 0

Spark ElasticSearch

已经有太多的文章说spark有多么的优秀了，我是非常认可的。比如：统一分析引擎，RDD抽象，dataset、df等编程接口，交互式编程的支持，稳定高效的机器学习算法库，高效的spark sql实现，基本

jopen 2016-01-24 9359 0

Spark

2013年年底，我第一次接触到Spark，当时我对Spark所使用的Scala语言产生了较大的兴趣。一段时间后，我做了一个预测泰坦尼克号船上人员生存概率的数据科学项目。事实证明这是一个更深入了解Spark概念和编程框架的绝佳途径。

jopen 2016-02-15 34562 0

Spark

数据库，而且我们还开发了一套让Spark从RDBMS直接读取数据的流程。我们作为读取数据的一方对于数据库的schema并不完全清楚，所以我们先读取为动态类型的Spark DataFrame，分析了数据结构和内容之后再转换为RDD。

jopen 2016-03-03 17142 0

Spark 数据库

去年 12 月份，Readdle 推出了 Spark 电子邮件应用的 Mac 版本，这款应用程序能够为用户提供跨平台的邮件收发体验，并且支持新款 MacBook Pro 中加入的 Touch Bar 触控栏，而现在，这款应用已经更新到了

jopen 2017-03-16 5515 0

Spark

端接收数据，所以继承了 InputDStream，是没有 receivers 的在结合 Spark Streaming 及 Kafka 的实时应用中，我们通常使用以下两个 API 来获取最初的 DStream（这里不关心这两个

MilBrinkley 2016-12-21 39071 0

分布式/云计算/大数据 Apache Kafka Spark Streaming

http://my.oschina.net/sucre/blog/617340 RDD编程 1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。

SophiaSpoff 2016-02-18 7692 0

分布式/云计算/大数据

在本篇文章，作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。 1.引言 Spark机器学习API包含两个package：spark.mllib

co880591 2016-06-01 148422 0

数据挖掘 Spark 大数据分布式/云计算/大数据

Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。前言这里说的并不是性能，因为我没尝试

GustavoGaga 2016-06-18 12095 0

SQL Spark SQL 分布式/云计算/大数据

e是不可变数组，对应着固定的键值对。 Apache Spark Spark Streaming 是核心Spark API的一个扩展，它并不会像Storm那样一次一个地处理数据流，而

sam2015 2016-02-17 17945 0

分布式/云计算/大数据

目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDFS，用于数据挖掘或机器

FloridaStil 2016-02-17 30236 0

Spark 分布式/云计算/大数据

英特尔今天宣布推出开源 BigDL，一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。深度学习库是英特尔公司在行业中实现最先进的人工智能战略的一部分。在去年 11 月宣布的

Pho81C 2017-02-12 11956 0

Spark 深度学习分布式/云计算/大数据

Apache 软件基金会今天宣布，Spark 项目已从孵化器毕业，成为 Apache 软件基金会的一个顶级项目。 Spark 是一个高效的分布式计算系统，发源于美国加州大学伯克利分校 AMPLab

jopen 2014-02-28 14848 0

Spark

Spark的发展势头正猛，可是对主流用户们来说还是太难了。云外加可视化也许有所帮助。开源项目Apache Spark如今可能是从加州大学伯克利分校的AMP实验室孕育而来的最有名的项目

jopen 2015-06-24 10217 0

Spark

Spark 1.2.1是一个维护版本( maintenance release) ，其中修复了一些bug，是基于branch-1.2 分支。并且推荐所有的1.2.0的用户升级到这个稳定版本。此次更新有

jopen 2015-02-09 20834 0

Spark

，支持关系型、JSON及地理空间数据等不同数据格式的实时内存数据处理。此外，它还支持与 Apache Spark 、Hadoop分布式文件系统（ HDFS ）及 Amazon S3 集成。该数据库解决方

jopen 2015-06-03 8006 0

MemSQL

Tachyon是Spark生态系统内快速崛起的一个新项目。本质上， Tachyon是个分布式的内存文件系统，它在减轻Spark内存压力的同时，也赋予了Spark内存快速大量数据读写的能力

wge7 2015-06-25 16075 0

Tachyon

是的，Spark很快。但是它不保证它算出的值是对的，哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是：《Spark: Cluster Computing with Working S

n5em 2015-06-05 20774 0

Spark

Apache Spark 1.6 正式发布，Spark 1.6 包含 1000+ 分支，主要是三个大方面的改进：性能提升，新的 Dataset API 和数据科学功能的扩展。这是社区开发非常重要的一个里程碑：Spark

jopen 2016-01-04 18184 0

IBM携手Spark，拥抱机器学习的下一个世代资讯

使用Akka来优化Spark+ElasticSearch的准实时系统资讯

spark十分优秀，但并非银弹资讯

事实上，Spark是一项非常值得学习的技术资讯

变不可能为可能，Tachyon帮助Spark变小时级任务到秒资讯

Mac版Spark获得更新整体生产力都提升了资讯

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较经验

spark快速大数据分析之读书笔记经验

用Spark进行大数据处理之机器学习篇经验

为什么说Spark SQL远远超越了MPP SQL 经验

流式大数据处理的三种框架：Storm，Spark和Samza 经验

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题经验

英特尔推出用于Apache Spark的深度学习库经验

分布式计算系统 Spark 成为 Apache 顶级项目资讯

三个理由告诉你为什么需要在云端运行Spark 资讯

Spark 1.2.1稳定版本发布(released) 资讯

MemSQL 4提供社区版本，并支持地理空间智能以及与Spark集成资讯

Tachyon：Spark生态系统中的分布式内存文件系统资讯

Spark的速度快是以丧失计算结果正确性为代价的资讯

Apache Spark 1.6 正式发布，性能大幅度提升资讯

Spark MLLib 的相关搜索

关键词

IBM携手Spark，拥抱机器学习的下一个世代 资讯

使用Akka来优化Spark+ElasticSearch的准实时系统 资讯

spark十分优秀，但并非银弹 资讯

事实上，Spark是一项非常值得学习的技术 资讯

变不可能为可能，Tachyon帮助Spark变小时级任务到秒 资讯

Mac版Spark获得更新 整体生产力都提升了 资讯

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较 经验

spark快速大数据分析之读书笔记 经验

用Spark进行大数据处理之机器学习篇 经验

为什么说Spark SQL远远超越了MPP SQL 经验

流式大数据处理的三种框架：Storm，Spark和Samza 经验

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题 经验

英特尔推出用于Apache Spark的深度学习库 经验

分布式计算系统 Spark 成为 Apache 顶级项目 资讯

三个理由告诉你为什么需要在云端运行Spark 资讯

Spark 1.2.1稳定版本发布(released) 资讯

MemSQL 4提供社区版本，并支持地理空间智能以及与Spark集成 资讯

Tachyon：Spark生态系统中的分布式内存文件系统 资讯

Spark的速度快是以丧失计算结果正确性为代价的 资讯

Apache Spark 1.6 正式发布，性能大幅度提升 资讯

Spark MLLib 的相关搜索

关键词

IBM携手Spark，拥抱机器学习的下一个世代资讯

使用Akka来优化Spark+ElasticSearch的准实时系统资讯

spark十分优秀，但并非银弹资讯

事实上，Spark是一项非常值得学习的技术资讯

变不可能为可能，Tachyon帮助Spark变小时级任务到秒资讯

Mac版Spark获得更新整体生产力都提升了资讯

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较经验

spark快速大数据分析之读书笔记经验

用Spark进行大数据处理之机器学习篇经验

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题经验

英特尔推出用于Apache Spark的深度学习库经验

分布式计算系统 Spark 成为 Apache 顶级项目资讯

MemSQL 4提供社区版本，并支持地理空间智能以及与Spark集成资讯

Tachyon：Spark生态系统中的分布式内存文件系统资讯

Spark的速度快是以丧失计算结果正确性为代价的资讯

Apache Spark 1.6 正式发布，性能大幅度提升资讯