深入理解 Spark RDD 抽象模型和编写 RDD 函数 经验

深入理解Spark RDD抽象模型和编写RDD函数 Spark revolves around the concept of a resilient distributed dataset (RDD)

ErikaKhr 2016-12-19   18383   0

张逸:并行分布式计算框架Spark的现状与未来发展 资讯

文/张逸 Spark 的发展 对于一个具有相当技术门槛与复杂度的平台,Spark 从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009 年,Spark 诞生于伯克利大学 AMPL

jopen 2014-11-24   36172   1
Spark  

华为叶琪:论Spark Streaming的数据可靠性和一致性 资讯

938 眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目,其从一诞生就受到广泛关注并迅速发展,目前已有追赶并超越Storm的架势。

jopen 2015-06-12   15043   0
Spark  

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka 经验

http://dockone.io/article/1023 在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆

电子天府 2016-02-16   55332   0

关于CarbonData+Spark SQL的一些应用实践和调优经验分享 经验

陈亮牵头,携手技术社区的核心开发者及合作伙伴,举办了一场Apache CarbonData+Spark 主题的技术交流会,就 CarbonData+Spark 的重要特性和使用介绍,做了全面而细致的分享,本文简单整理了其中的部

AAFDell 2017-09-11   32989   0

Apache Spark 1.2.0发布:引入基于Netty的实现,支持高可用,并提供机器学习API 资讯

Apache Spark 1.2.0已经发布 ,Spark核心引擎在性能和可用性方面都有很大改进。这是来自60多家研究机构和公司的172位贡献者的成果,包括了1000多个补丁。 Spark 1.2.0与之前的1

jopen 2015-01-10   22324   0

Mahout通过可插拔的后端平台Spark和Flink获取自优化矩阵代数接口 资讯

平台,相反它有一个可插拔的后端以针对不同的平台。 Schelter说,目前 Apache Spark (星火)发展最为快速,但是 Apache Flink ,另一个正在孵化的下一代大数据平台,也将在Mahout的考虑之中。

jopen 2014-12-16   17124   0
Mahout  

四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍 经验

属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共同好友

watsons 2016-08-10   12375   0

Spark 数据挖掘 - 利用决策树预测森林覆盖面积 资讯

Spark 数据挖掘—利用决策树预测森林覆盖面积 1 前言 预测问题记住一点:最垃圾的预测就是使用平均值,如果你的预测连比直接给出平均值效果都要差,那就省省吧! 统计学诞生一个多世纪之后,随着

jopen 2015-11-03   32268   0
Spark  

一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统 经验

偏好物品,根据相似信息来推荐给该用户 MatrixFactorization 因为在SparkMLlib模块中只有MF算法,文章之后会讲述如何使用Matrix Factorization来做相关的推荐。

ilmangle 2016-03-11   92012   0

轻量级大规模机器学习算法库Fregata开源:快速,无需调参 经验

1 目前的主流大数据处理技术都是以Map Reduce计算模式为核心的(包括Hadoop和Spark)。而 Map Reduce 计算模式下对第一个问题只能通过增加内存,SSD存储来解决或者缓解,

tianyuak47 2016-12-14   16216   0

值得mark的11个开源机器学习项目 经验

缺点之一:目前几乎没有算法支持高性能的 Spark 框架,反而使用日益过时的 MapReduce 框架。该项目目前不接受基于 MapReduce 的算法,那些想要获得更高性能的开发者转而用 MLlib 替代。 Project:

jopen 2014-12-05   46666   0

开发者必备:基于Linux生态的十大AI开源框架盘点 资讯

http://www.h2o.ai/ 4. MLlib:基于 Spark 框架的机器学习算法实现库 MLlib 是 Apache 开源项目 Spark 针对一些常用的机器学习算法的实现库,同时也包括了相关的测试程序和数据生成器。

jopen 2017-01-12   28012   0
Linux   AI  

开发者必备:基于Linux生态的十大AI开源框架盘点 资讯

http://www.h2o.ai/ 4. MLlib:基于 Spark 框架的机器学习算法实现库 MLlib 是 Apache 开源项目 Spark 针对一些常用的机器学习算法的实现库,同时也包括了相关的测试程序和数据生成器。

jopen 2017-01-12   33302   0
Linux   AI  

11个著名的开源机器学习工具 经验

on analyzing live streaming data by way of the Spark project, Oryx is designed to allow machine learning

fd5f 2014-12-29   50116   0
P8

  《2016数据科学从业者薪酬调查报告》摘要解读 文档

Science Salary Survey),调查报告表明: 相比其它工具,使用Python和 Spark的人薪水更高。 · SQL, Excel, R 和 Python 最常用的工具. · 开会越多的人,通常薪水也越高。

wpwan 2016-12-10   603   0
报告   Apache   Python   Scala   SQL  

Olivier Grisel谈scikit-learn和机器学习技术的未来 资讯

scikit-learn VS MLlib FD:目前,在机器学习领域,我们听到了大量关于Spark的传闻。你有机会去尝试一下么?如何把它与scikit-learn进行比较呢? OG:通过制作的两个Spark教程,我

jopen 2015-10-13   13668   0

360开源其深度学习调度平台,支持TensorFlow、MXNet等框架 资讯

013 年加入奇虎 360,先后参与公司 Hadoop、Spark 、深度学习等平台的建设,历经公司 Hadoop 平台高速发展及 Spark 平台从无到大规模实践及深度学习平台的落地。曾主持数据仓库索引、MPI

jopen 2017-12-07   26919   0
360   XLearning   开源  

0x0D 随机之美,随机森林 经验

根,或者log2(特征数)+1,在scikit-learn的实现中,支持sqrt与log2,而spark还支持onethird(1/3)。 在结点进行分裂的时候,除了先随机取固定个特征,然后选择最

jopen 2016-01-20   22355   0
算法  

机器学习的11个开源项目 经验

云服务的接口。 MLlib MLlib是Apache自己的Spark和Hadoop机器学习库,它被设计用于大规模高速度地执行MLlib所包含的大部分常见机 器学习算法。MLlib是基于Java开发

jopen 2014-12-18   52979   0
1 2 3 4 5 6 7 8 9 10