分布式/云计算/大数据 - 开源经验 - 第18页

0推荐

21K 浏览

今天简单介绍一下Pyleus设置worker数量，同时介绍设置之后worker与实际编程spout、bolt的关系。

jopen 9年前

运维技术分布式/云计算/大数据

0推荐

21K 浏览

Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop...

jopen 9年前

MapReduce Spark 分布式/云计算/大数据

0推荐

17K 浏览

今天在启动docker容器的时候发现一段时间后宿主机上所有的容器的根目录全部变成了只读，并且宿主机message日志报磁盘相关的错

jopen 9年前

Docker 分布式/云计算/大数据 cgroups

0推荐

23K 浏览

本篇主要介绍Apache Ignite的核心功能特性，有价值的功能点非常多，所以每个点写的并不详细，这篇文章主要目的还是方便更多的人更全面的了解它，后续的话，可能会针对某个功能点做详细的说明。

jopen 9年前

分布式/云计算/大数据

0推荐

20K 浏览

Apache Ignite(一)：简介以及和Coherence、Gemfire、Redis等的比较：一、Ignite简介 Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的...

jopen 9年前

分布式/云计算/大数据

0推荐

16K 浏览

HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是：

jopen 9年前

Hadoop 大数据 HDFS 分布式/云计算/大数据

0推荐

23K 浏览

正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

12K 浏览

tns为thrift rpc分布式组件，实现rpc的高可靠、负载均衡、水平动态可扩展等，工具提供完整的命令行管理方式。

jopen 9年前

分布式/云计算/大数据

0推荐

15K 浏览

上一章讲，虚拟化能够充分的利用资源，带来各种各样的好处。当一个网站不大，只需要四五台机器就可以支撑的时候，可以采用手工的方式虚拟机，但是当网站流量很高，需要成千上万台机器的时候，那就非常不方便...

jopen 9年前

云计算 OpenStack 虚拟化分布式/云计算/大数据

0推荐

12K 浏览

正如你所知，spark实现了多种shuffle方法，通过 spark.shuffle.manager来确定。暂时总共有三种：hash shuffle、sort shuffle和tungsten-...

jopen 9年前

Spark 哈希表分布式/云计算/大数据

0推荐

11K 浏览

hadoop的运行原理：hadoop主要由三方面组成: 1、HDFS 2、MapReduce 3、Hbase Hadoop框架中最核心的设计就是：MapReduce和H...

jopen 9年前

分布式/云计算/大数据

0推荐

8K 浏览

Spark中最核心的概念为 RDD（Resilient Distributed DataSets）中文为：弹性分布式数据集，RDD为对分布式内存对象的抽象它表示一个被分区不可变且能 ...

jopen 9年前

Spark 分布式/云计算/大数据

0推荐

8K 浏览

πfs 是一个数据库无关的文件系统。πfs 绝对是个创新性文件系统，不会花费硬盘空间来存储你的数据，而是把数据存储到 π 里面。你将不会再把硬盘空间耗尽 —— π 存储的每个文件都在，因为 π ...

jopen 9年前

存储系统分布式/云计算/大数据

0推荐

23K 浏览

在Spark0.6.0 版本开始支持 YARN 模式，随后的版本在逐渐地完善。

jopen 9年前

Spark YARN 分布式/云计算/大数据

0推荐

14K 浏览

FastDFS 分布式的文件存储环境搭建

jopen 9年前

分布式/云计算/大数据

0推荐

22K 浏览

在Ubuntu环境部署Apache Spark集群

jopen 9年前

分布式/云计算/大数据

0推荐

120K 浏览

使用Spark DataFrame进行大数据处理：简介 DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，...

jopen 9年前

分布式/云计算/大数据

0推荐

10K 浏览

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Had...

jopen 9年前

Hadoop Spark 分布式/云计算/大数据

0推荐

8K 浏览

Spark是一个当下很火的集群计算平台，来自于加州大学伯克利分校的AMPLab，目前从Apache孵化器毕业，成为了Apache基金会下的顶级项目。现在的spark类似于hadoop，逐渐成长为...

jopen 9年前

Hadoop 分布式/云计算/大数据分布式文件系统

0推荐

8K 浏览

Dpark/Spark中最重要的核心就是RDD（弹性分布式数据集，Resilient Distributed Datasets），为了给今后的分析打下基础，这篇文章首先会解释RDD相关的重要概念...

jopen 9年前

分布式/云计算/大数据分布式文件系统

Storm运维调优笔记（7）——Pyleus设置拓扑worker数量

不同的瑞士军刀：对比 Spark 和 MapReduce

docker容器根目录为只读的解决办法

Apache Ignite（二）：核心特性一览（V1.4.0版本）

Apache Ignite(一)：简介以及和Coherence、Gemfire、Redis等的比较

大数据技术hadoop入门理论系列之二—HDFS架构简介

Spark Shuffle之Sort Shuffle

thrift rpc分布式组件 - tns

大型网站技术-2. OpenStack简述

Spark Shuffle之Hash Shuffle

hadoop的运行原理

Spark核心——RDD

πfs - 文件存储解决方案

在YARN上运行Spark

FastDFS 分布式的文件存储环境搭建

在Ubuntu环境部署Apache Spark集群

使用Spark DataFrame进行大数据处理

Hadoop和Spark的处理模型比较

Dpark源码剖析

Dpark源码剖析一（概述）

热门问答

热门文档