开源项目,开源代码,开源文档,开源新闻,开源社区

深入理解Spark RDD抽象模型和编写RDD函数 Spark revolves around the concept of a resilient distributed dataset (RDD)

ErikaKhr 2016-12-19 18383 0

Spark 分布式/云计算/大数据

文/张逸 Spark 的发展对于一个具有相当技术门槛与复杂度的平台，Spark 从诞生到正式版本的成熟，经历的时间如此之短，让人感到惊诧。2009 年，Spark 诞生于伯克利大学 AMPL

jopen 2014-11-24 36172 1

Spark

938 眼下大数据领域最热门的词汇之一便是流计算了，其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目，其从一诞生就受到广泛关注并迅速发展，目前已有追赶并超越Storm的架势。

jopen 2015-06-12 15043 0

Spark

http://dockone.io/article/1023 在今天的文章中，我们将着重探讨如何利用SMACK（即Spark、Mesos、Akka、Cassandra以及Kafka）堆栈构建可扩展数据处理平台。虽然这套堆

电子天府 2016-02-16 55332 0

Cassandra Spark Kafka 分布式/云计算/大数据

陈亮牵头，携手技术社区的核心开发者及合作伙伴，举办了一场Apache CarbonData+Spark 主题的技术交流会，就 CarbonData+Spark 的重要特性和使用介绍，做了全面而细致的分享，本文简单整理了其中的部

AAFDell 2017-09-11 32989 0

Spark SQL 分布式/云计算/大数据

Apache Spark 1.2.0已经发布，Spark核心引擎在性能和可用性方面都有很大改进。这是来自60多家研究机构和公司的172位贡献者的成果，包括了1000多个补丁。 Spark 1.2.0与之前的1

jopen 2015-01-10 22324 0

Apache Spark

平台，相反它有一个可插拔的后端以针对不同的平台。 Schelter说，目前 Apache Spark （星火）发展最为快速，但是 Apache Flink ，另一个正在孵化的下一代大数据平台，也将在Mahout的考虑之中。

jopen 2014-12-16 17124 0

Mahout

属于社交网络分析的基本指标之一，是其它复杂指标的基础。借助Spark GraphX，我们用寥寥100行核心代码，在高配置的TDW-Spark集群上，只花了2个半小时，便完成了原来需要2天的全量共同好友

watsons 2016-08-10 12375 0

Spark 分布式/云计算/大数据 GraphX

Spark 数据挖掘—利用决策树预测森林覆盖面积 1 前言预测问题记住一点：最垃圾的预测就是使用平均值，如果你的预测连比直接给出平均值效果都要差，那就省省吧！统计学诞生一个多世纪之后，随着

jopen 2015-11-03 32268 0

Spark

偏好物品，根据相似信息来推荐给该用户 MatrixFactorization 因为在Spark的MLlib模块中只有MF算法，文章之后会讲述如何使用Matrix Factorization来做相关的推荐。

ilmangle 2016-03-11 92012 0

推荐系统算法 Spark 分布式/云计算/大数据

1 目前的主流大数据处理技术都是以Map Reduce计算模式为核心的（包括Hadoop和Spark）。而 Map Reduce 计算模式下对第一个问题只能通过增加内存，SSD存储来解决或者缓解，

tianyuak47 2016-12-14 16216 0

数据挖掘算法开源机器学习

缺点之一：目前几乎没有算法支持高性能的 Spark 框架，反而使用日益过时的 MapReduce 框架。该项目目前不接受基于 MapReduce 的算法，那些想要获得更高性能的开发者转而用 MLlib 替代。 Project：

jopen 2014-12-05 46666 0

机器学习

http://www.h2o.ai/ 4. MLlib：基于 Spark 框架的机器学习算法实现库 MLlib 是 Apache 开源项目 Spark 针对一些常用的机器学习算法的实现库，同时也包括了相关的测试程序和数据生成器。

jopen 2017-01-12 28012 0

Linux AI

http://www.h2o.ai/ 4. MLlib：基于 Spark 框架的机器学习算法实现库 MLlib 是 Apache 开源项目 Spark 针对一些常用的机器学习算法的实现库，同时也包括了相关的测试程序和数据生成器。

jopen 2017-01-12 33302 0

Linux AI

on analyzing live streaming data by way of the Spark project, Oryx is designed to allow machine learning

fd5f 2014-12-29 50116 0

机器学习

P8

Science Salary Survey)，调查报告表明：相比其它工具，使用Python和 Spark的人薪水更高。 · SQL, Excel, R 和 Python 最常用的工具. · 开会越多的人，通常薪水也越高。

wpwan 2016-12-10 603 0

报告 Apache Python Scala SQL

scikit-learn VS MLlib FD：目前，在机器学习领域，我们听到了大量关于Spark的传闻。你有机会去尝试一下么?如何把它与scikit-learn进行比较呢? OG：通过制作的两个Spark教程，我

jopen 2015-10-13 13668 0

机器学习

013 年加入奇虎 360，先后参与公司 Hadoop、Spark 、深度学习等平台的建设，历经公司 Hadoop 平台高速发展及 Spark 平台从无到大规模实践及深度学习平台的落地。曾主持数据仓库索引、MPI

jopen 2017-12-07 26919 0

360 XLearning 开源

根，或者log2(特征数)+1，在scikit-learn的实现中，支持sqrt与log2，而spark还支持onethird(1/3)。在结点进行分裂的时候，除了先随机取固定个特征，然后选择最

jopen 2016-01-20 22355 0

算法

云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库，它被设计用于大规模高速度地执行MLlib所包含的大部分常见机器学习算法。MLlib是基于Java开发

jopen 2014-12-18 52979 0

机器学习

深入理解 Spark RDD 抽象模型和编写 RDD 函数经验

张逸：并行分布式计算框架Spark的现状与未来发展资讯

华为叶琪：论Spark Streaming的数据可靠性和一致性资讯

数据处理平台架构中的SMACK组合：Spark、Mesos、Akka、Cassandra以及Kafka 经验

关于CarbonData+Spark SQL的一些应用实践和调优经验分享经验

Apache Spark 1.2.0发布：引入基于Netty的实现，支持高可用，并提供机器学习API 资讯

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口资讯

四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍经验

Spark 数据挖掘 - 利用决策树预测森林覆盖面积资讯

一位算法师工程师的Spark机器学习笔记：构建一个简单的推荐系统经验

轻量级大规模机器学习算法库Fregata开源：快速，无需调参经验

值得mark的11个开源机器学习项目经验

开发者必备：基于Linux生态的十大AI开源框架盘点资讯

开发者必备：基于Linux生态的十大AI开源框架盘点资讯

11个著名的开源机器学习工具经验

《2016数据科学从业者薪酬调查报告》摘要解读文档

Olivier Grisel谈scikit-learn和机器学习技术的未来资讯

360开源其深度学习调度平台，支持TensorFlow、MXNet等框架资讯

0x0D 随机之美，随机森林经验

机器学习的11个开源项目经验

Spark MLLib 的相关搜索

关键词

深入理解 Spark RDD 抽象模型和编写 RDD 函数 经验

张逸：并行分布式计算框架Spark的现状与未来发展 资讯

华为叶琪：论Spark Streaming的数据可靠性和一致性 资讯

数据处理平台架构中的SMACK组合：Spark、Mesos、Akka、Cassandra以及Kafka 经验

关于CarbonData+Spark SQL的一些应用实践和调优经验分享 经验

Apache Spark 1.2.0发布：引入基于Netty的实现，支持高可用，并提供机器学习API 资讯

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口 资讯

四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍 经验

Spark 数据挖掘 - 利用决策树预测森林覆盖面积 资讯

一位算法师工程师的Spark机器学习笔记：构建一个简单的推荐系统 经验

轻量级大规模机器学习算法库Fregata开源：快速，无需调参 经验

值得mark的11个开源机器学习项目 经验

开发者必备：基于Linux生态的十大AI开源框架盘点 资讯

开发者必备：基于Linux生态的十大AI开源框架盘点 资讯

11个著名的开源机器学习工具 经验

《2016数据科学从业者薪酬调查报告》摘要解读 文档

Olivier Grisel谈scikit-learn和机器学习技术的未来 资讯

360开源其深度学习调度平台，支持TensorFlow、MXNet等框架 资讯

0x0D 随机之美，随机森林 经验

机器学习的11个开源项目 经验

Spark MLLib 的相关搜索

关键词

深入理解 Spark RDD 抽象模型和编写 RDD 函数经验

张逸：并行分布式计算框架Spark的现状与未来发展资讯

华为叶琪：论Spark Streaming的数据可靠性和一致性资讯

关于CarbonData+Spark SQL的一些应用实践和调优经验分享经验

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口资讯

四两拨千斤：借助Spark GraphX将QQ千亿关系链计算提速20倍经验

Spark 数据挖掘 - 利用决策树预测森林覆盖面积资讯

一位算法师工程师的Spark机器学习笔记：构建一个简单的推荐系统经验

轻量级大规模机器学习算法库Fregata开源：快速，无需调参经验

值得mark的11个开源机器学习项目经验

开发者必备：基于Linux生态的十大AI开源框架盘点资讯

开发者必备：基于Linux生态的十大AI开源框架盘点资讯

11个著名的开源机器学习工具经验

《2016数据科学从业者薪酬调查报告》摘要解读文档

Olivier Grisel谈scikit-learn和机器学习技术的未来资讯

360开源其深度学习调度平台，支持TensorFlow、MXNet等框架资讯

0x0D 随机之美，随机森林经验

机器学习的11个开源项目经验