登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
分布式/云计算/大数据
(共
1277
篇经验)
0
推荐
19K
浏览
BABY夜谈大数据 : 计算文本相似度
上一章有提到过[基于关键词的空间向量模型]的算法,将用户的喜好以文档描述并转换成向量模型,对商品也是这么处理,然后再通过计算商品文档和用户偏好文档的余弦相似度。
JonasAshcra
9年前
数据库
大数据
向量
分布式/云计算/大数据
0
推荐
11K
浏览
Spark Application的调度算法
要想明白spark application调度机制,需要回答一下几个问题: 1.谁来调度? 2.为谁调度? 3.调度什么? 3.何时调度? 4.调度算法
NorineXGII
9年前
Spark
分布式/云计算/大数据
0
推荐
17K
浏览
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享...
Smith
9年前
MapReduce
分布式/云计算/大数据
0
推荐
37K
浏览
大数据存储技术方案介绍
大数据存储技术方案介绍:大数据存储方案 Cap思想 分布式领域CAP理论, Consistency(一致性), 数据一致更新,所有数据变动都...
lvwg4417
9年前
存储系统
分布式/云计算/大数据
0
推荐
12K
浏览
ceph基于pglog的一致性协议
分布式存储系统通常采用多副本的方式来保证系统的可靠性,而多副本之间如何保证数据的一致性就是系统的核心。ceph号称统一存储,其核心RADOS既支持多副本,也支持纠删码。本文主要分析ceph的多副本一致性协议。
MelanieStoc
9年前
Ceph
分布式/云计算/大数据
0
推荐
8K
浏览
Spark核心概念RDD(Resilient Distributed Datasets)
Spark核心概念RDD(Resilient Distributed Datasets):本文介绍Spark的RDD。作为一个概念,RDD本身是与编程语言无关的,你即可以用Scala实现,也可以...
U4dbsfaasa
9年前
分布式/云计算/大数据
0
推荐
19K
浏览
hadoop环境搭建总结
hadoop环境搭建总结:最近一段时间在看Hadoop The Definitive Guide, 3rd Edition.pdf,学习hadoop,个人想不能总看书,不实践...
krco8100
9年前
分布式/云计算/大数据
0
推荐
6K
浏览
Hive任务优化
Hive任务优化--控制hive任务中的map数和reduce数:一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务...
qq3466460
9年前
分布式/云计算/大数据
0
推荐
8K
浏览
spark快速大数据分析之读书笔记
spark快速大数据分析之读书笔记:RDD编程 1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群...
SophiaSpoff
9年前
分布式/云计算/大数据
0
推荐
19K
浏览
0x10 SQL与NoSQL,数据桥梁Sqoop
SQL处理二维表格数据,是一种最朴素的工具,NoSQL是NotOnlySQL,即不仅仅是SQL。从MySQL导入数据到HDFS文件系统中,最简单的一种方式就是使用Sqoop,然后将HDFS中的数...
AugGabel
9年前
分布式/云计算/大数据
0
推荐
14K
浏览
centos 6.6最小化版本 安装分布式存储FastDFS
centos 6.6最小化版本 安装分布式存储FastDFS:最小化安装centos6.6,配置网络 1、编译和安装所需的依赖包: # yum install make cmake gcc gcc-c...
OllieMcneal
9年前
存储系统
分布式/云计算/大数据
0
推荐
56K
浏览
flume-ng+Kafka+Storm+HDFS 实时系统搭建
flume-ng+Kafka+Storm+HDFS 实时系统搭建:一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日...
liu0627
9年前
分布式/云计算/大数据
0
推荐
34K
浏览
把本地文件夹下的所有文件上传到hdfs上并合并成一个文件
把本地文件夹下的所有文件上传到hdfs上并合并成一个文件
uttq1257
9年前
分布式/云计算/大数据
0
推荐
18K
浏览
Windows安装和使用zookeeper
来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的Windows安装和配置. 首先需要安装JdK,从Oracle的Java网站下载,...
yijindong
9年前
分布式/云计算/大数据
0
推荐
18K
浏览
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。
sam2015
9年前
分布式/云计算/大数据
0
推荐
25K
浏览
大数据分析需要把hbase、mysql等数据导入hive吗?
看做什么,如果不需要对数据进行实时处理,那么大部分情况下都需要把数据从hbase/mysql(数据库)“导入”到hive(数据仓库)中进行分析。 “导入”的过程中会做一些元数据转换等操作。
jannyarj
9年前
MySQL
HBase
数据仓库
分布式/云计算/大数据
0
推荐
30K
浏览
Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题
目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至H...
FloridaStil
9年前
Spark
分布式/云计算/大数据
0
推荐
65K
浏览
基于ELK的简单数据分析
我们的数据量没有新浪那么大,一天正常水平在6千万条左右,多的时候有一个亿条记录,受到新浪案例的启发我们基于ELK搭建自己的简单数据分析系统,刚开始选择这个的原因:(1)就我一个人折腾东西, (2...
neoly
9年前
分布式/云计算/大数据
0
推荐
26K
浏览
一个母婴电子商务网站的大数据平台及机器学习实践
关键字:大数据平台、机器学习 母婴相对一般的电子商务网站有一些特点:第一个特点是商品周期短,在母婴网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需...
GweMedlin
9年前
分布式/云计算/大数据
0
推荐
34K
浏览
大数据不只是数据大 全面解析大数据
在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原...
sisimv
9年前
大数据
分布式/云计算/大数据
1
2
3
4
5
6
7
8
9
10
经验分享,提升职场影响力
投稿
热门问答
热门文档