登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
Spark
(共
125
篇经验)
0
推荐
14K
浏览
Hadoop和Spark框架的异同
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
oxzr6054
8年前
Hadoop
Spark
分布式/云计算/大数据
0
推荐
57K
浏览
让Spark如虎添翼的Zeppelin - 基础篇
Spark 是一个非常好的计算平台,支持多种语言,同时基于内存的计算速度也非常快。整个开源社区也很活跃。
zulo2012
8年前
Spark
Zeppelin
分布式/云计算/大数据
0
推荐
17K
浏览
深入浅出Spark(二) 什么是RDD
RDD的官方定义RDD是Spark中的数据抽象,意思是弹性分布式数据集。在逻辑上是一个数据集,在物理上则可以分块分布在不同的机器上并发运行。
CharlotteOF
8年前
Spark
分布式/云计算/大数据
0
推荐
12K
浏览
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只...
watsons
8年前
Spark
分布式/云计算/大数据
GraphX
0
推荐
27K
浏览
呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性?
Apache hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。
zfb1226
8年前
Hadoop
Spark
分布式/云计算/大数据
0
推荐
23K
浏览
Apache Spark 2.0前瞻:为机器学习模型注入持久性
在所有的这些例子中,如果有了模型的持久性,那么保存和加载模型的问题将变得更容易解决。在即将到来的2.0版本中,通过基于DataFrame的API,Spark机器学习库MLlib将实现几乎完整的M...
e鸿619
8年前
数据挖掘
Spark
分布式/云计算/大数据
0
推荐
148K
浏览
用Spark进行大数据处理之机器学习篇
在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。
co880591
8年前
数据挖掘
大数据
Spark
分布式/云计算/大数据
0
推荐
14K
浏览
星星之火渐呈燎原之势:Spark 2.0预览版重磅来袭
目前Databricks订阅用户已经能够获取Spark 2.0的技术预览版。性能提升、SparkSessions以及数据流处理能力将成为新版本的主要发展方向。
zpzdmy
8年前
Spark
分布式/云计算/大数据
0
推荐
25K
浏览
Spark性能优化——和shuffle搏斗
Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。
xc43fgt66
8年前
性能优化
Spark
分布式/云计算/大数据
0
推荐
68K
浏览
Spark的RDD原理以及2.0特性的介绍
王联辉,曾在腾讯,Intel 等公司从事大数据相关的工作。2013 年 - 2016 年先后负责腾讯 Yarn 集群和 Spark 平台的运营与研发。曾负责 Intel Hadoop 发行版的 ...
di742088
8年前
数据库
Spark
分布式/云计算/大数据
0
推荐
35K
浏览
让数据告诉你未来:Spark Streaming+Kudu+Impala构建预测引擎
这篇文章将介绍基于流式API数据来演示如何预测资源需求变化来调整资源分配。
ususking
8年前
Spark
Impala
分布式/云计算/大数据
0
推荐
39K
浏览
Spark性能优化指南——高级篇
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
Poppy3869
8年前
性能优化
Spark
分布式/云计算/大数据
0
推荐
43K
浏览
SparkNET: 用Spark训练深度神经网络
练深度神经网络是一个非常耗时的过程,比如用卷积神经网络去训练一个目标识别任务需要好几天来训练。因此,充分利用集群的资源,加快训练速度成了一个非常重要的领域。不过,当前非常热门的批处理计算架构 (...
nd4670
8年前
Spark
神经网络
0
推荐
106K
浏览
Spark性能优化指南——基础篇
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作...
TorWortman
8年前
Spark
分布式/云计算/大数据
0
推荐
28K
浏览
【原】Learning Spark (Python版) 学习笔记(一)
《Learning Spark》 这本书算是Spark入门的必读书了,中文版是 《Spark快速大数据分析》 ,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评...
idvv5744
9年前
Python
Spark
Python开发
0
推荐
35K
浏览
基于Apache Spark的机器学习及神经网络算法和应用
使用高级分析算法(如大规模机器学习、图形分析和统计建模等)来发现和探索数据是当前流行的思路,在IDF16技术课堂上,英特尔公司软件开发工程师王以恒分享了《基于Apache Spark的机器学习及...
MarcelaSell
9年前
算法
机器学习
Spark
神经网络
0
推荐
21K
浏览
自定义Spark Partitioner提升es-hadoop Bulk效率
之前写过一篇文章, 如何提高ElasticSearch 索引速度 。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这...
ukon7587
9年前
Hadoop
Spark
ElasticSearch
分布式/云计算/大数据
0
推荐
56K
浏览
Spark在美团的实践
美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。...
樱桃大丸子
9年前
Spark
分布式/云计算/大数据
0
推荐
92K
浏览
一位算法师工程师的Spark机器学习笔记:构建一个简单的推荐系统
因为在Spark的MLlib模块中只有MF算法,文章之后会讲述如何使用Matrix Factorization来做相关的推荐。
ilmangle
9年前
算法
Spark
推荐系统
分布式/云计算/大数据
0
推荐
75K
浏览
用Apache Spark进行大数据处理——第三部分:Spark流
在“用Apache Spark进行大数据处理”系列的前两篇文章中,我们看到了Apache Spark框架是什么(第一部分)还有如何使用Spark SQL库访问数据的SQL接口(第二部分)。
hgdx4257
9年前
大数据
Spark
分布式/云计算/大数据
1
2
3
4
5
6
7
经验分享,提升职场影响力
投稿
热门问答
热门文档