登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
Spark
(共
125
篇经验)
0
推荐
10K
浏览
Hadoop和Spark的处理模型比较
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
jopen
9年前
Hadoop
Spark
分布式/云计算/大数据
0
推荐
19K
浏览
使用Docker在本地搭建hadoop,spark集群
本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷。这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的...
jopen
9年前
Hadoop
Spark
Docker
分布式/云计算/大数据
0
推荐
21K
浏览
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
49K
浏览
基于Spark的机器学习经验
这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了 ...
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
17K
浏览
Spark Streaming 源码解析系列
作为跑在商业硬件上的大数据处理框架,Apache Hadoop 在诞生后的几年内(2005~今)火的一塌糊涂,几乎成为了业界处理大数据的事实上的标准工具
dfd7
9年前
Spark
分布式/云计算/大数据
0
推荐
7K
浏览
Spark如何解决常见的Top N问题
假设我们有一张各个产品线URL的访问记录表,该表仅仅有两个字段:product、url,我们需要统计各个产品线下访问次数前10的URL是哪些?
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
10K
浏览
Spark 集群概述
本篇博客简述 Spark 集群相关的概念。 Spark 的"集群"不是提供运算服务的,而是一种资源分配的调度器。 执行任务的 Spark 进程作为客户端向"集群"申请资源(运算节...
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
13K
浏览
基于Spark和Flask的一个可伸缩的电影推荐系统
这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于 协同过滤 建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差(ALS) 算法。
jopen
9年前
推荐引擎
Spark
0
推荐
41K
浏览
Spark处理Json格式数据(Python)
Spark能够自动推断出Json数据集的“数据模式”(Schema),并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的:
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
73K
浏览
如何使用Spark ALS实现协同过滤
本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。 更新:
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
45K
浏览
Spark性能调优
通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整,本文主要分享的也是这两方面内容。
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
208K
浏览
Spark运行环境的安装
Spark功能还是蛮强的,安装的东西可是不少,好在搞完一次就可以一直用(除非用不上)。这里介绍安装需要的软件和步骤。不同机器可能还有些设置不一样的,需要自己去摸索,毕竟这个是开源软件,好事是有问...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
53K
浏览
关于Spark的基本概念和特性简介
Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
22K
浏览
怎样利用Spark Streaming和Hadoop实现近实时的会话连接
这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spa...
jopen
10年前
Hadoop
Spark
分布式/云计算/大数据
0
推荐
13K
浏览
Spark学习笔记之浅释
Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言 是Scala,项目...
jopen
10年前
Spark
分布式/云计算/大数据
0
推荐
31K
浏览
Spark的编译
由于Spark的运行环境的多样性,如可以运行在hadoop的yarn上,这样就必须要对Spark的源码进行编译。
pdce
10年前
Spark
分布式/云计算/大数据
0
推荐
150K
浏览
Spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本...
x286
10年前
中文分词
Spark
0
推荐
254K
浏览
Ubuntu下Spark开发环境搭建
配置Ubuntu下使用Python开发Spark应用
dgy7
10年前
Spark
分布式/云计算/大数据
0
推荐
211K
浏览
Spark 入门(Python、Scala 版)
本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节将开始通过命令行与Spa...
efbb
10年前
Spark
分布式/云计算/大数据
0
推荐
18K
浏览
颠覆大数据分析之Spark弹性数据集
Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop
likeo
10年前
Spark
分布式/云计算/大数据
1
2
3
4
5
6
7
经验分享,提升职场影响力
投稿
热门问答
热门文档