Spark - 开源经验 - 第4页

0推荐

10K 浏览

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Had...

jopen 9年前

Hadoop Spark 分布式/云计算/大数据

0推荐

19K 浏览

本环境使用的单个宿主主机，而不是跨主机集群，本spark集群环境存在的意义可能在于便于本地开发测试使用，非常轻量级和便捷。这个部署过程，最好在之前有过一定的hadoop，spark集群部署经验的...

jopen 9年前

Hadoop Spark Docker 分布式/云计算/大数据

0推荐

21K 浏览

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

49K 浏览

这篇内容基于我去年的一些感悟写的，但是今年才在Stuq 的微信群做的分享。从技术角度而言，对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说，受这篇内容影响，他接受了 ...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

17K 浏览

作为跑在商业硬件上的大数据处理框架，Apache Hadoop 在诞生后的几年内（2005~今）火的一塌糊涂，几乎成为了业界处理大数据的事实上的标准工具

dfd7 9年前

Spark 分布式/云计算/大数据

0推荐

7K 浏览

假设我们有一张各个产品线URL的访问记录表，该表仅仅有两个字段：product、url，我们需要统计各个产品线下访问次数前10的URL是哪些？

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

10K 浏览

本篇博客简述 Spark 集群相关的概念。 Spark 的＂集群＂不是提供运算服务的，而是一种资源分配的调度器。执行任务的 Spark 进程作为客户端向＂集群＂申请资源(运算节...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

13K 浏览

这份Apache Spark教程可以指导你逐步了解如何使用 MovieLens 数据集,基于协同过滤建立一个电影推荐系统。协同过滤使用 Spark的交替最小方差（ALS）算法。

jopen 9年前

推荐引擎 Spark

0推荐

41K 浏览

Spark能够自动推断出Json数据集的“数据模式”（Schema），并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的：

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

73K 浏览

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结，希望对大家熟悉Spark ALS算法有所帮助。更新：

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

45K 浏览

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

208K 浏览

Spark功能还是蛮强的，安装的东西可是不少，好在搞完一次就可以一直用（除非用不上）。这里介绍安装需要的软件和步骤。不同机器可能还有些设置不一样的，需要自己去摸索，毕竟这个是开源软件，好事是有问...

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

53K 浏览

Spark是近年来发展较快的分布式并行数据处理框架，可以与Hadoop联合使用，增强Hadoop的性能。同时，Spark还增加了内存缓存、流数据处理、图数据处理等更为高级的数据处理能力。这里简单...

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

22K 浏览

这个 Spark Streaming 样例是一个可持久化到Hadoop近实时会话的很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。你用Spa...

jopen 10年前

Hadoop Spark 分布式/云计算/大数据

0推荐

13K 浏览

Spark是一个基于内存计算的开源集群计算系统，目的是让数据分析更加快速。 Spark非常小巧玲珑，由加州伯克利大学AMP实验室的小团队开发。使用的语言是Scala，项目...

jopen 10年前

Spark 分布式/云计算/大数据

0推荐

31K 浏览

由于Spark的运行环境的多样性，如可以运行在hadoop的yarn上，这样就必须要对Spark的源码进行编译。

pdce 10年前

Spark 分布式/云计算/大数据

0推荐

150K 浏览

目前的分词器大部分都是单机服务器进行分词，或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。本...

x286 10年前

中文分词 Spark

0推荐

254K 浏览

配置Ubuntu下使用Python开发Spark应用

dgy7 10年前

Spark 分布式/云计算/大数据

0推荐

211K 浏览

本文中，我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后，将在入门级水平探索Spark，了解Spark是什么以及它如何工作（希望可以激发更多探索）。最后两节将开始通过命令行与Spa...

efbb 10年前

Spark 分布式/云计算/大数据

0推荐

18K 浏览

Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop

likeo 10年前

Spark 分布式/云计算/大数据

Hadoop和Spark的处理模型比较

使用Docker在本地搭建hadoop，spark集群

Spark的性能调优

基于Spark的机器学习经验

Spark Streaming 源码解析系列

Spark如何解决常见的Top N问题

Spark 集群概述

基于Spark和Flask的一个可伸缩的电影推荐系统

Spark处理Json格式数据（Python）

如何使用Spark ALS实现协同过滤

Spark性能调优

Spark运行环境的安装

关于Spark的基本概念和特性简介

怎样利用Spark Streaming和Hadoop实现近实时的会话连接

Spark学习笔记之浅释

Spark的编译

Spark + ansj 对大数据量中文进行分词

Ubuntu下Spark开发环境搭建

Spark 入门（Python、Scala 版）

颠覆大数据分析之Spark弹性数据集

热门问答

热门文档