0推荐
19K 浏览

BABY夜谈大数据 : 计算文本相似度

上一章有提到过[基于关键词的空间向量模型]的算法,将用户的喜好以文档描述并转换成向量模型,对商品也是这么处理,然后再通过计算商品文档和用户偏好文档的余弦相似度。
0推荐
11K 浏览

Spark Application的调度算法

要想明白spark application调度机制,需要回答一下几个问题: 1.谁来调度? 2.为谁调度? 3.调度什么? 3.何时调度? 4.调度算法
0推荐
17K 浏览

使用mapreduce计算环比的实例

最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享...
0推荐
37K 浏览

大数据存储技术方案介绍

大数据存储技术方案介绍:大数据存储方案 Cap思想   分布式领域CAP理论, Consistency(一致性), 数据一致更新,所有数据变动都...
0推荐
12K 浏览

ceph基于pglog的一致性协议

分布式存储系统通常采用多副本的方式来保证系统的可靠性,而多副本之间如何保证数据的一致性就是系统的核心。ceph号称统一存储,其核心RADOS既支持多副本,也支持纠删码。本文主要分析ceph的多副本一致性协议。
0推荐
8K 浏览

Spark核心概念RDD(Resilient Distributed Datasets)

Spark核心概念RDD(Resilient Distributed Datasets):本文介绍Spark的RDD。作为一个概念,RDD本身是与编程语言无关的,你即可以用Scala实现,也可以...
0推荐
19K 浏览

hadoop环境搭建总结

hadoop环境搭建总结:最近一段时间在看Hadoop The Definitive Guide, 3rd Edition.pdf,学习hadoop,个人想不能总看书,不实践...
0推荐
6K 浏览

Hive任务优化

Hive任务优化--控制hive任务中的map数和reduce数:一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务...
0推荐
8K 浏览

spark快速大数据分析之读书笔记

spark快速大数据分析之读书笔记:RDD编程 1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群...
0推荐
19K 浏览

0x10 SQL与NoSQL,数据桥梁Sqoop

SQL处理二维表格数据,是一种最朴素的工具,NoSQL是NotOnlySQL,即不仅仅是SQL。从MySQL导入数据到HDFS文件系统中,最简单的一种方式就是使用Sqoop,然后将HDFS中的数...
0推荐
14K 浏览

centos 6.6最小化版本 安装分布式存储FastDFS

centos 6.6最小化版本 安装分布式存储FastDFS:最小化安装centos6.6,配置网络 1、编译和安装所需的依赖包: # yum install make cmake gcc gcc-c...
0推荐
56K 浏览

flume-ng+Kafka+Storm+HDFS 实时系统搭建

flume-ng+Kafka+Storm+HDFS 实时系统搭建:一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日...
0推荐
34K 浏览

把本地文件夹下的所有文件上传到hdfs上并合并成一个文件

把本地文件夹下的所有文件上传到hdfs上并合并成一个文件
0推荐
18K 浏览

Windows安装和使用zookeeper

来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的Windows安装和配置. 首先需要安装JdK,从Oracle的Java网站下载,...
0推荐
18K 浏览

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。
0推荐
25K 浏览

大数据分析需要把hbase、mysql等数据导入hive吗?

看做什么,如果不需要对数据进行实时处理,那么大部分情况下都需要把数据从hbase/mysql(数据库)“导入”到hive(数据仓库)中进行分析。 “导入”的过程中会做一些元数据转换等操作。
0推荐
30K 浏览

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至H...
0推荐
65K 浏览

基于ELK的简单数据分析

我们的数据量没有新浪那么大,一天正常水平在6千万条左右,多的时候有一个亿条记录,受到新浪案例的启发我们基于ELK搭建自己的简单数据分析系统,刚开始选择这个的原因:(1)就我一个人折腾东西, (2...
0推荐
26K 浏览

一个母婴电子商务网站的大数据平台及机器学习实践

关键字:大数据平台、机器学习 母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需...
0推荐
34K 浏览

大数据不只是数据大 全面解析大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档