Spark 常见问题小结 经验

Spark is an excellent tool to use with Apache Cassandra and thanks to the DataStax OSS Spark Cassandra

jopen 2015-12-31   51499   0

Spark SQL编程指南(Python) 经验

前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。 SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:

jopen 2015-11-21   63799   0

Spark Shuffle之Hash Shuffle 经验

com/jacksu/utils4s/blob/master/spark-knowledge/md/hash-shuffle.md 正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash

jopen 2016-01-10   11873   0

Spark与Flink:对比与分析 资讯

2 Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个 节点上,可以被并行操作。用户也可以让Spark保留一个

jopen 2015-07-16   34743   0
Spark  
P34

  webim(openfire+spark+smack) 文档

第三方也可以用。不要成为clearspace的附庸。 4. c++ 的客户端,pidgin那样的最好,啥都可以连,spark国内的接受程度低。(4应该没有可能:) 即将(据说是4/27)开源的功能 · Reporting

nalogy 2010-12-07   13292   0

Databricks Spark 知识库 经验

错误 - Connection refused Spark 组件之间的网络连接问题 性能 & 优化 一个 RDD 有多少个分区 数据本地性 Spark Streaming ERROR OneForOneStrategy

jopen 2015-01-01   12695   0

集群计算平台:Spark 经验

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。 Spark已正式申请

jopen 2014-08-15   89025   0

Spark 入门(Python、Scala 版) 经验

本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节将开始通过命令行与Spark进行交互,然后演示如何

efbb 2015-05-08   210961   0

基于Spark的机器学习经验 经验

tuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了 Spark-Shell作为数据分析的工具,简单几个命令

jopen 2015-12-11   48934   0

Spark在美团的实践 经验

基于以上原因,美团在2014年的时候引入了Spark。为了充分利用现有Hadoop集群的资源,我们采用了Spark on Yarn模式,所有的Spark app以及MapReduce作业会通过Yarn统一调度执行。Spark在美团数据平台架构中的位置如图所示:

樱桃大丸子 2016-04-09   55580   0

Spark Shuffle之Sort Shuffle 经验

com/jacksu/utils4s/blob/master/spark-knowledge/md/sort-shuffle.md 正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash

jopen 2016-01-11   23250   0
P10

  hadoop&&spark安装教程 文档

Hadoop&&spark安装教程 环境 本教程使用 Ubuntu 12.04 64位 作为系统环境(Ubuntu 14.04 也行,32位、64位均可),请自行安装系统 装好了 Ubuntu 系统之后,在安装

P158

  apache-spark源码走读 文档

Apache Spark源码走读之1 -- Spark论文阅读笔记 欢迎转载,转载请注明出处,徽沪一郎。 楔子 源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到

bxingqing 2017-06-12   1332   0

开源云计算系统 Spark 经验

Spark是一个开源的集群计算系统,用于快速数据分析,包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark

fmms 2012-01-05   104657   0
P2

  Spark 部署与实践 文档

专题:Spark部署与实践 Apache Spark是立足于内存计算的一种快速数据分析方案。其性能已经得到大家的认可,但我们该如何部署与实施Spark呢?本专题将为您介绍不同模式的Spark部署。 头条推荐

yxwpx 2015-07-21   506   0

Spark实战1:单节点本地模式搭建Spark运行环境 经验

前言: Spark本身用scala写的,运行在JVM之上。 JAVA版本:java 6 /higher edition. 1 下载Spark http://spark.apache.org/downloads

jopen 2014-09-15   51473   0

Spark实战:单节点本地模式搭建Spark运行环境 经验

前言: Spark本身用scala写的,运行在JVM之上。 JAVA版本:java 6 /higher edition. 1 下载Spark http://spark.apache.org/downloads

jopen 2014-11-25   17404   0

使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码 经验

在对 Spark 有了一定使用经验后,为了能够跟进 Spark 源代码的开发进展,对其源代码进行详细的阅读分析,本文详细说明了如何使用 IntelliJ IDEA 从 Github 上导入最新的 Spark

jopen 2015-01-23   194482   0

Apache Spark 内存管理详解 经验

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出

wiki 2017-03-28   19298   0

Spark Block存储管理分析 经验

Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中是如何定位Block

ImoQLLL 2017-05-02   26190   0
1 2 3 4 5 6 7 8 9 10