0推荐
10K 浏览

Hadoop和Spark的处理模型比较

Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
0推荐
19K 浏览

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷。这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的...
0推荐
21K 浏览

Spark的性能调优

下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。
0推荐
49K 浏览

基于Spark的机器学习经验

这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了 ...
0推荐
17K 浏览

Spark Streaming 源码解析系列

作为跑在商业硬件上的大数据处理框架,Apache Hadoop 在诞生后的几年内(2005~今)火的一塌糊涂,几乎成为了业界处理大数据的事实上的标准工具
0推荐
7K 浏览

Spark如何解决常见的Top N问题

假设我们有一张各个产品线URL的访问记录表,该表仅仅有两个字段:product、url,我们需要统计各个产品线下访问次数前10的URL是哪些?
0推荐
10K 浏览

Spark 集群概述

本篇博客简述 Spark 集群相关的概念。 Spark 的"集群"不是提供运算服务的,而是一种资源分配的调度器。 执行任务的 Spark 进程作为客户端向"集群"申请资源(运算节...
0推荐
13K 浏览

基于Spark和Flask的一个可伸缩的电影推荐系统

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于 协同过滤 建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差(ALS) 算法。
jopen 9年前   
0推荐
41K 浏览

Spark处理Json格式数据(Python)

Spark能够自动推断出Json数据集的“数据模式”(Schema),并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的:
0推荐
73K 浏览

如何使用Spark ALS实现协同过滤

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。 更新:
0推荐
45K 浏览

Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。
0推荐
208K 浏览

Spark运行环境的安装

Spark功能还是蛮强的,安装的东西可是不少,好在搞完一次就可以一直用(除非用不上)。这里介绍安装需要的软件和步骤。不同机器可能还有些设置不一样的,需要自己去摸索,毕竟这个是开源软件,好事是有问...
0推荐
53K 浏览

关于Spark的基本概念和特性简介

Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单...
0推荐
22K 浏览

怎样利用Spark Streaming和Hadoop实现近实时的会话连接

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spa...
0推荐
13K 浏览

Spark学习笔记之浅释

Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言 是Scala,项目...
0推荐
31K 浏览

Spark的编译

由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。
0推荐
150K 浏览

Spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本...
x286 9年前   
0推荐
254K 浏览

Ubuntu下Spark开发环境搭建

配置Ubuntu下使用Python开发Spark应用
0推荐
211K 浏览

Spark 入门(Python、Scala 版)

本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节将开始通过命令行与Spa...
0推荐
18K 浏览

颠覆大数据分析之Spark弹性数据集

Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop
1 2 3 4 5 6 7

经验分享,提升职场影响力

投稿

热门问答

    热门文档