0推荐
21K 浏览

Storm运维调优笔记(7)——Pyleus设置拓扑worker数量

今天简单介绍一下Pyleus设置worker数量,同时介绍设置之后worker与实际编程spout、bolt的关系。
0推荐
21K 浏览

不同的瑞士军刀:对比 Spark 和 MapReduce

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop...
0推荐
17K 浏览

docker容器根目录为只读的解决办法

今天在启动docker容器的时候发现一段时间后宿主机上所有的容器的根目录全部变成了只读,并且宿主机message日志报磁盘相关的错
0推荐
23K 浏览

Apache Ignite(二):核心特性一览(V1.4.0版本)

本篇主要介绍Apache Ignite的核心功能特性,有价值的功能点非常多,所以每个点写的并不详细,这篇文章主要目的还是方便更多的人更全面的了解它,后续的话,可能会针对某个功能点做详细的说明。
0推荐
20K 浏览

Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较

Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较:一、Ignite简介 Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的...
0推荐
16K 浏览

大数据技术hadoop入门理论系列之二—HDFS架构简介

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是:
0推荐
23K 浏览

Spark Shuffle之Sort Shuffle

正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
0推荐
12K 浏览

thrift rpc分布式组件 - tns

tns为thrift rpc分布式组件,实现rpc的高可靠、负载均衡、水平动态可扩展等,工具提供完整的命令行管理方式。
0推荐
15K 浏览

大型网站技术-2. OpenStack简述

上一章讲,虚拟化能够充分的利用资源,带来各种各样的好处。 当一个网站不大,只需要四五台机器就可以支撑的时候,可以采用手工的方式虚拟机,但是当网站流量很高,需要成千上万台机器的时候,那就非常不方便...
0推荐
12K 浏览

Spark Shuffle之Hash Shuffle

正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-...
0推荐
11K 浏览

hadoop的运行原理

hadoop的运行原理:hadoop主要由三方面组成: 1、HDFS 2、MapReduce 3、Hbase Hadoop框架中最核心的设计就是:MapReduce和H...
0推荐
8K 浏览

Spark核心——RDD

Spark中最核心的概念为 RDD(Resilient Distributed DataSets) 中文为: 弹性分布式数据集 ,RDD为对分布式内存对象的 抽象它表示一个 被分区不可变 且能 ...
0推荐
8K 浏览

πfs - 文件存储解决方案

πfs 是一个数据库无关的文件系统。πfs 绝对是个创新性文件系统,不会花费硬盘空间来存储你的数据,而是把数据存储到 π 里面。你将不会再把硬盘空间耗尽 —— π 存储的每个文件都在,因为 π ...
0推荐
23K 浏览

在YARN上运行Spark

在Spark0.6.0 版本开始支持 YARN 模式,随后的版本在逐渐地完善。
0推荐
14K 浏览

FastDFS 分布式的文件存储环境搭建

FastDFS 分布式的文件存储环境搭建
0推荐
22K 浏览

在Ubuntu环境部署Apache Spark集群

在Ubuntu环境部署Apache Spark集群
0推荐
120K 浏览

使用Spark DataFrame进行大数据处理

使用Spark DataFrame进行大数据处理:简介 DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,...
0推荐
10K 浏览

Hadoop和Spark的处理模型比较

Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Had...
0推荐
8K 浏览

Dpark源码剖析

Spark是一个当下很火的集群计算平台,来自于加州大学伯克利分校的AMPLab,目前从Apache孵化器毕业,成为了Apache基金会下的顶级项目。现在的spark类似于hadoop,逐渐成长为...
0推荐
8K 浏览

Dpark源码剖析一(概述)

Dpark/Spark中最重要的核心就是RDD(弹性分布式数据集,Resilient Distributed Datasets),为了给今后的分析打下基础,这篇文章首先会解释RDD相关的重要概念...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档