登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
分布式/云计算/大数据
(共
1277
篇经验)
0
推荐
8K
浏览
大数据(十一) - Mahout
Apache Mahout是什么 基于MapReduce开发的数据挖掘/机器学习库 良好的扩展性和容错性 充分利用了MapRe...
jopen
9年前
分布式/云计算/大数据
0
推荐
8K
浏览
大数据(十) - Pig
Pig是什么 Hadoop上的 数据流执行引擎(由Yahoo!开源) 利用HDFS存储数据 利用Map...
jopen
9年前
分布式/云计算/大数据
0
推荐
14K
浏览
大数据(九) - Hive
构建在Hadoop之上的 数据仓库,数据计算使用MR,数据存储使用HDFS 因为数据计算使用mapreduce,因此通常用于进行离线数据处理 Hive 定义了一种类 SQ...
jopen
9年前
分布式/云计算/大数据
0
推荐
14K
浏览
大数据(八) - Sqoop
Sqoop是什么 Sqoop:SQL-to-Hadoop 连接 传统关系型数据库 和 Hadoop 的桥梁 把关系型...
jopen
9年前
分布式/云计算/大数据
0
推荐
14K
浏览
大数据(七) - Flume
flume[flu:m]:日志采集、聚合和传输的系统, java语言实现
jopen
9年前
分布式/云计算/大数据
0
推荐
13K
浏览
大数据(六) - ZooKeeper
Zookeeper是什么 是一个针对大型分布式系统的可靠协调系统; 提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 目标就...
jopen
9年前
分布式/云计算/大数据
0
推荐
24K
浏览
大数据(五) - HBase
HBase是一个构建在HDFS上的分布式列存储系统, 主要用于海量结构化数据存储, 从逻辑上讲,HBase将数据按照表、行和列进行存储。 HDFS适合批处理场景 不支持数...
jopen
9年前
分布式/云计算/大数据
0
推荐
14K
浏览
大数据(四) - MapReduce
MapReduce适合PB级以上海量数据的离线处理 MapReduce不擅长什么 实时计算 像MySQL一样,在毫秒级或者秒级内返回结...
jopen
9年前
分布式/云计算/大数据
0
推荐
12K
浏览
大数据(三) - YARN
YARN是资源管理系统,理论上支持多种资源,目前支持CPU和内存两种资源 YARN产生背景 直接源于MRv1在几个方面的缺陷 扩展性受限 ...
jopen
9年前
分布式/云计算/大数据
0
推荐
25K
浏览
大数据(二) - HDFS
HDFS优点 高容错性 数据自动保存多个副本 副本丢失后,自动恢复 适合批处理 移动计...
jopen
9年前
分布式/云计算/大数据
0
推荐
23K
浏览
大数据(一) - hadoop生态系统及版本演化
HDFS:分布式存储系统(Hadoop Distributed File System):提供了高可靠性、高扩展性和高吞吐率的数据存储服务 HDFS源自于Google...
jopen
9年前
分布式/云计算/大数据
0
推荐
15K
浏览
Gearpump:基于 Akka 的大数据实时处理引擎
Gearpump:基于 Akka 的大数据实时处理引擎
jopen
9年前
大数据
AKKA
分布式/云计算/大数据
0
推荐
27K
浏览
kafka+spark streaming+redis学习
针对这段时间所学的做了一个简单的综合应用,应用的场景为统计一段时间内各个小区的网络信号覆盖率,计算公式如下所示:
jopen
9年前
Redis
Kafka
Spark
分布式/云计算/大数据
0
推荐
78K
浏览
Spark的性能调优
首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
26K
浏览
大数据平台CDH集群离线搭建
标签: Cloudera-Manager CDH Hadoop 部署 集群 摘要:管理、部署Hadoop集群需要工具,Cloudera Manager便是其一。本文先是简要对比了当前的类似工具...
jopen
9年前
MySQL
大数据
Cloudera
分布式/云计算/大数据
0
推荐
13K
浏览
Zookeeper注册中心的搭建
之所以把本文归类为Dubbo是因为,博主关于Dubbo的学习笔记都是以Zookeeper作为注册中心的。
jopen
9年前
分布式/云计算/大数据
0
推荐
9K
浏览
yarn的初步理解
下一代的MapReduce系统框架,也称为MRv2(MapReduce version 2), 它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度。 YARN的基本思想是将Jo...
jopen
9年前
YARN
分布式/云计算/大数据
0
推荐
22K
浏览
浅谈Spark应用程序的性能调优
Spark是基于内存的分布式计算引擎,以处理的高效和稳定著称。然而在实际的应用开发过程中,开发者还是会遇到种种问题,其中一大类就是和性能相关。在本文中,笔者将结合自身实践,谈谈如何尽可能地提高应用程序性能。
jopen
9年前
Spark
分布式/云计算/大数据
0
推荐
29K
浏览
从零开始搭建Hadoop2.7.1的分布式集群
网上教程有很多关于Hadoop配置的,但是每一个教程都对应了一个版本信息,有一些教程也存在很大的问题,配置环境,系统环境都没说清楚。在此我将记录下来从零搭建Hadoop2.7.1的过程,以及搭建...
jopen
9年前
分布式/云计算/大数据
0
推荐
9K
浏览
spark 编程珠玑-RDD 篇
spark编程珠玑-RDD篇:RDD 有关RDD的基础概念请阅读spark官方文档,或网上搜索其他内容。本文完全是实战经验的总结。 惰性求值...
jopen
9年前
分布式/云计算/大数据
1
2
3
4
5
6
7
8
9
10
经验分享,提升职场影响力
投稿
热门问答
热门文档