登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
Spark
(共
63
篇资讯)
全部
开源软件
前端技术
互联网
IT业界
移动开发
数据库
操作系统
软件编程
IT职场
开源资讯投稿,获得更多曝光机会!
投稿
解析Spark大数据分析框架的核心部件
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyo...
勿忘初心321
9年前
18139
Hadoop
Spark
数据分析
HDFS
如何运用Spark进行实时数据分析
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不...
勿忘初心321
9年前
32298
Hadoop
Spark
数据分析
HDFS
使用Akka来优化Spark+ElasticSearch的准实时系统
假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的阈值。面对这一场景,用户应该...
jopen
9年前
20256
Spark
ElasticSearch
Spark和Hadoop,孰优孰劣?
Spark 已经取代 Hadoop 成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家 Bernard Marr 在一篇 文章 中分析了Spa...
jopen
9年前
16341
Spark
IBM承诺将推动Spark的发展
上个月早些时候在拉斯维加斯举行的 IBM Insight 2015 大数据分析峰会上, IBM 公司宣布将主要承担 Apache Spark 项目。正如IBM公司 之前所说 的“这可能将会是下个...
jopen
9年前
13908
Spark
应用Spark解决Kaggle数据科学问题
如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题。近期, comSysto公司 的Danial Bartl就 分享 了该公司研发团队利用 Spark 平台解决 Kaggle 竞赛...
jopen
9年前
17064
Spark
Spark 数据挖掘 - 利用决策树预测森林覆盖面积
预测问题记住一点:最垃圾的预测就是使用平均值,如果你的预测连比直接给出平均值效果都要差,那就省省吧! 统计学诞生一个多世纪之后,随着现在机器学习和数据科学的产生,我们依旧使用回归的思想来进行预...
jopen
9年前
32268
Spark
运用Spark加速实时数据分析
Apache Hadoop是一个成熟的开发框架,其连接着庞大的生态系统,并且得到了Cloudera、Hortonwork、Yahoo这些卓越机构的支持与贡献,并且为各个组织提供了许多工具来管理不...
jopen
9年前
11656
Spark
Storm、Spark和MapReduce 开源分布式计算系统框架比较
比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Sto...
jopen
9年前
16466
Spark
谷歌推出Dataproc,让Spark、Hadoop更便宜更快更简单
近日,谷歌 发布 了Google Cloud Dataproc服务Beta测试版。Cloud Dataproc是一个托管的Spark与Hadoop服务,可以帮助用户快速创建集群、简化集群管理及降...
jopen
9年前
8859
Hadoop
Spark
IBM携手Spark,拥抱机器学习的下一个世代
Spark 是目前相当受欢迎的开源丛集运算架构,相较于 Hadoop,Spark 拥有敏捷快速的效能和便于应用的优势,因其采用内存储存数据资料,使它拥有高效运算;而通用的 API 协助使用者编写...
jopen
9年前
6373
Spark
Spark之后,谁将接手大数据
随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了 Hadoop平台 。...
jopen
9年前
12885
Spark
IBM如何拥抱Spark
Spark 是目前相当火热的开源计算框架,相对于 Hadoop ,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通...
jopen
9年前
23892
Spark
Spark与Flink:对比与分析
Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个 节点上,可以被并行操作。用户也可以让Spark保留一个R...
jopen
9年前
34743
Spark
Spark 和 Hadoop 是朋友不是敌人
IBM 宣布计划大规模投资 Spark 相关技术,此项声明会促使越来越多的工程师学习 Spark 技术,并且大量的企业也会采用 Spark 技术。
jopen
9年前
17287
Hadoop
Spark
通过可视化来了解你的Spark应用程序
【编者按】在" Spark 1.4:SparkR发布,钨丝计划锋芒初露 "一文中,我们有简单地介绍了1.4版本给Spark注入的新特性,在各个组件的介绍中也提到了新UI给用户带来的便捷。而从本文...
jopen
9年前
13638
Spark
Spark 1.4:SparkR发布,钨丝计划锋芒初露
6月11日(美国时间),Spark 1.4版本正式发布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升级之外,...
jopen
9年前
20979
Spark
三个理由告诉你为什么需要在云端运行Spark
Spark的发展势头正猛,可是对主流用户们来说还是太难了。云外加可视化也许有所帮助。
jopen
9年前
10217
Spark
助人就是助己:IBM宣布大规模资助开源大数据项目Spark
本周一,IBM 宣布 将对开源实时大数据分析项目Apache Spark进行大规模资助,蓝色巨人宣称,其资助的力度之大相当于每年数亿美元的投入。 Hadoop技术出自Google、Yahoo这...
jopen
9年前
18185
Spark
Spark 1.4 新特性概述
经过4个RC版本,Spark 1.4最终还是赶在Spark Summit前发布了,本文简单谈下本版本中那些非常重要的新feature和improvement.
gf67
9年前
22439
Spark
1
2
3
4
热门问答
热门文档