分布式/云计算/大数据 - 开源经验 - 第12页

0推荐

19K 浏览

上一章有提到过[基于关键词的空间向量模型]的算法，将用户的喜好以文档描述并转换成向量模型，对商品也是这么处理，然后再通过计算商品文档和用户偏好文档的余弦相似度。

JonasAshcra 9年前

数据库大数据向量分布式/云计算/大数据

0推荐

11K 浏览

要想明白spark application调度机制，需要回答一下几个问题： 1.谁来调度？ 2.为谁调度？ 3.调度什么？ 3.何时调度？ 4.调度算法

NorineXGII 9年前

Spark 分布式/云计算/大数据

0推荐

17K 浏览

最近做了一个小的mapreduce程序，主要目的是计算环比值最高的前5名，本来打算使用spark计算，可是本人目前spark还只是简单看了下，因此就先改用mapreduce计算了，今天和大家分享...

Smith 9年前

MapReduce 分布式/云计算/大数据

0推荐

37K 浏览

大数据存储技术方案介绍：大数据存储方案 Cap思想分布式领域CAP理论， Consistency(一致性), 数据一致更新，所有数据变动都...

lvwg4417 9年前

存储系统分布式/云计算/大数据

0推荐

12K 浏览

分布式存储系统通常采用多副本的方式来保证系统的可靠性，而多副本之间如何保证数据的一致性就是系统的核心。ceph号称统一存储，其核心RADOS既支持多副本，也支持纠删码。本文主要分析ceph的多副本一致性协议。

MelanieStoc 9年前

Ceph 分布式/云计算/大数据

0推荐

8K 浏览

Spark核心概念RDD（Resilient Distributed Datasets）：本文介绍Spark的RDD。作为一个概念，RDD本身是与编程语言无关的，你即可以用Scala实现，也可以...

U4dbsfaasa 9年前

分布式/云计算/大数据

0推荐

19K 浏览

hadoop环境搭建总结：最近一段时间在看Hadoop The Definitive Guide, 3rd Edition.pdf，学习hadoop，个人想不能总看书，不实践...

krco8100 9年前

分布式/云计算/大数据

0推荐

6K 浏览

Hive任务优化--控制hive任务中的map数和reduce数：一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务...

qq3466460 9年前

分布式/云计算/大数据

0推荐

8K 浏览

spark快速大数据分析之读书笔记：RDD编程 1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群...

SophiaSpoff 9年前

分布式/云计算/大数据

0推荐

19K 浏览

SQL处理二维表格数据，是一种最朴素的工具，NoSQL是NotOnlySQL，即不仅仅是SQL。从MySQL导入数据到HDFS文件系统中，最简单的一种方式就是使用Sqoop，然后将HDFS中的数...

AugGabel 9年前

分布式/云计算/大数据

0推荐

14K 浏览

centos 6.6最小化版本安装分布式存储FastDFS：最小化安装centos6.6,配置网络 1、编译和安装所需的依赖包: # yum install make cmake gcc gcc-c...

OllieMcneal 9年前

存储系统分布式/云计算/大数据

0推荐

56K 浏览

flume-ng+Kafka+Storm+HDFS 实时系统搭建：一直以来都想接触Storm实时计算这块的东西，最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日...

liu0627 9年前

分布式/云计算/大数据

0推荐

34K 浏览

把本地文件夹下的所有文件上传到hdfs上并合并成一个文件

uttq1257 9年前

分布式/云计算/大数据

0推荐

18K 浏览

来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍 Zookeeper 的Windows安装和配置. 首先需要安装JdK，从Oracle的Java网站下载，...

yijindong 9年前

分布式/云计算/大数据

0推荐

18K 浏览

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。

sam2015 9年前

分布式/云计算/大数据

0推荐

25K 浏览

看做什么，如果不需要对数据进行实时处理，那么大部分情况下都需要把数据从hbase/mysql(数据库)“导入”到hive(数据仓库)中进行分析。 “导入”的过程中会做一些元数据转换等操作。

jannyarj 9年前

MySQL HBase 数据仓库分布式/云计算/大数据

0推荐

30K 浏览

目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至H...

FloridaStil 9年前

Spark 分布式/云计算/大数据

0推荐

65K 浏览

我们的数据量没有新浪那么大，一天正常水平在6千万条左右，多的时候有一个亿条记录，受到新浪案例的启发我们基于ELK搭建自己的简单数据分析系统，刚开始选择这个的原因：(1)就我一个人折腾东西， (2...

neoly 9年前

分布式/云计算/大数据

0推荐

26K 浏览

关键字：大数据平台、机器学习母婴相对一般的电子商务网站有一些特点：第一个特点是商品周期短，在母婴网站上的商品，在线的时间不会超过5-7天，第二个是用户需求的变化快，在母婴行业，可能是用户的需...

GweMedlin 9年前

分布式/云计算/大数据

0推荐

34K 浏览

在写这篇文章之前，我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻，如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因，一是因为大家对新技术有着相同的原...

sisimv 9年前

大数据分布式/云计算/大数据

BABY夜谈大数据：计算文本相似度

Spark Application的调度算法

使用mapreduce计算环比的实例

大数据存储技术方案介绍

ceph基于pglog的一致性协议

Spark核心概念RDD（Resilient Distributed Datasets）

hadoop环境搭建总结

Hive任务优化

spark快速大数据分析之读书笔记

0x10 SQL与NoSQL，数据桥梁Sqoop

centos 6.6最小化版本安装分布式存储FastDFS

flume-ng+Kafka+Storm+HDFS 实时系统搭建

把本地文件夹下的所有文件上传到hdfs上并合并成一个文件

Windows安装和使用zookeeper

流式大数据处理的三种框架：Storm，Spark和Samza

大数据分析需要把hbase、mysql等数据导入hive吗？

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

基于ELK的简单数据分析

一个母婴电子商务网站的大数据平台及机器学习实践

大数据不只是数据大全面解析大数据

热门问答

热门文档