华为叶琪:论Spark Streaming的数据可靠性和一致性

眼下大数据领域最热门的词汇之一便是流计算了,其中最耀眼的项目无疑是来自Spark社区的Spark Streaming项目,其从一诞生就受到广泛关注并迅速发展,目前已有追赶并超越Storm的架势。
jopen 9年前    15043   

Spark的速度快是以丧失计算结果正确性为代价的

是的,Spark很快。但是它不保证它算出的值是对的,哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是:《Spark: Cluster Computing with Working...
n5em 9年前    20774   

Spark 1.5将不再支持Java 6

 在几年前,Oracle宣布不再维护Java 6的更新(看这里http://www.computerworld.com/article/2494112/application- security...
bgn4 10年前    15551   

Spark 1.4最大的看点:支持R语言(SparkR)

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个广泛应用于统计计算和统计制图的优 秀编程语言,但是其交互式使用通常局限于一台机器。为了能够使...
jopen 10年前    23899   

Spark成为大数据分析领域新核心的五个理由

为了更为顺畅地实现Hadoop基础之上的高级与实时分析目标,Apache Spark凭借着自身的出色表现很快成为大数据领域的新核心。 在过去几年当中,随着Hadoop逐步成为大数据处理领域的主...
jopen 10年前    16135   

Spark发布1.3.0版本

3月13日, Spark 1.3.0版本与我们如约而至 。这是Spark 1.X发布计划中的第四次发布,距离1.2版本发布约三个月时间。据Spark官方网站报道,此次发布是有史以来最大的一次发布...
jopen 10年前    28176   

陈超:Spark这一年,从开源到火爆

2014年的大数据领域,Apache Spark(以下简称Spark)无疑最受瞩目。Spark,出自名门伯克利AMPLab之手,目前由商业公司Databricks保驾护航。自2014 年3月份跻...
jopen 10年前    34447   

Spark 1.2.1稳定版本发布(released)

 Spark 1.2.1是一个维护版本( maintenance release) ,其中修复了一些bug,是基于branch-1.2 分支。并且推荐所有的1.2.0的用户升级到这个稳定版本。此...
jopen 10年前    20834   

Spark奠基者博士论文中文版出来了

由 CSDN CODE翻译社区 组织的长篇论文翻译An Architecture for Fast and General Data Processing on Large Clusters 经...
jopen 10年前    14963   

Spark 1.2版本发布: MLlib支持工作流,SQL支持源数据筛选

12月18日,Spark宣布发布1.2版本,和以往发布的版本相比,1.2版本算得上是最大的一次改进,代码来自172个开发者的多达一千次提交。更新内容涵盖核心性能改进、MLlib的新API、Str...
jopen 10年前    7849   

类似pip一样的跟踪Spark上面开发应用和扩展库的网站

随着Spark生态系统的发展,越来越多的公司和组织在Spark上面开发应用和扩展库。随着这些库的增长,用户一直希望有一个类似pip一样的跟踪这些库的网站。今天我们给大家带来一个圣诞礼物: spa...
jopen 10年前    6582   

Spark1.2新特性概述

1.2 居然真的在12月份发布了,我表示略感意外,我一直以为稍微跳个票要到明年一月初才能发的。这次更新有172个开发者参与,并且有1000多个 commits。这真是一个了不起的数字。本次版本给...
jopen 10年前    8121   

开源分布式计算系统,Spark 1.2 发布

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分...
jopen 10年前    23822   

Spark与Hadoop之间的PK

一说大数据,人们往往想到 Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些 Hadoop 被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的...
jopen 10年前    15510   

张逸:并行分布式计算框架Spark的现状与未来发展

对于一个具有相当技术门槛与复杂度的平台,Spark 从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009 年,Spark 诞生于伯克利大学 AMPLab,最开初属于伯克利大学的研...
jopen 10年前    36172   

Spark vs. MapReduce 时间节约66%,计算节约40%

本文将介绍基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比,相比于MapReduce,TDW Spark执行时间减少了66%,计算成本降低了40%。 本文将介绍...
jopen 10年前    17978   

Spark 2.0.0 支持 Java 8 Lambda

Spark是一个微型的Java Web框架,它的灵感来自于Sinatra,它的目的是让你以最小的代价创建出一个Java Web应用。最近更新到2.0.0,支持Java 8 ,支持Lambda,D...
jopen 10年前    12082   

Spark 颠覆 MapReduce 保持的排序记录

在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数 据处理上,Apache Spark比MapReduce...
jopen 10年前    13271   

开源集群计算环境,Spark 1.1.0 发布

Spark 1.1.0 发布,该版本带来了一些操作性和性能的提升,主要是体现在核心模块上。同时增加新的库 MLlib 和 Spark SQL。支持 Python ,增加新的组件到 Spark 流...
jopen 10年前    16979   

数据科学家调查:受挫数据多样性,吐槽 Hadoop

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆...
jopen 10年前    5848   
1 2 3 4

热门问答

热门文档