0推荐
17K 浏览

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径(分享)

Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代...
0推荐
33K 浏览

你的数据根本不够大,别老扯什么Hadoop了

有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是很少处理几TB以上数据的任务 。我基本上只是一个大数据新手——知道概念,写过代码,但是没有...
0推荐
12K 浏览

hadoop作业调优参数整理及原理(主要为shuffle过程)

当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的 部分结果的缓存,并在内存buffer中...
0推荐
12K 浏览

hadoop2.2.0安装笔记

hadoop2.2.0安装笔记
0推荐
34K 浏览

针对 Hadoop 平台的开发Eclipse插件集合:The Hadoop Development Tools (HDT)

The Hadoop Development Tools (HDT) 是 针对 Hadoop 平台开发的一组 Eclipse IDE插件集合。
jopen 10年前   
0推荐
32K 浏览

Hadoop Sentry 学习

Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制
0推荐
52K 浏览

hadoop-2.2.0+spark1.1.0安装过程

hadoop-2.2.0+spark1.1.0安装过程
0推荐
34K 浏览

Hadoop、Spark、HBase与Redis的适用性讨论(全文)

最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几...
0推荐
28K 浏览

Hadoop的辉煌还能延续多久?

Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。看来,不仅现在Hadoop是企业大数据的标准,而且在未来,...
0推荐
77K 浏览

用Hadoop构建电影推荐系统

Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Amba...
jopen 10年前   
0推荐
23K 浏览

hadoop分布式部署

hadoop分布式部署
0推荐
14K 浏览
0推荐
15K 浏览

Hadoop YARN中内存和CPU两种资源的调度和隔离

同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍Hadoop YARN是如何对这些资源进行调度和隔离的。
0推荐
53K 浏览

Hadoop开发使用备记

使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现...
0推荐
172K 浏览

Hadoop 新 MapReduce 框架 Yarn 详解

对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过...
0推荐
45K 浏览

hadoop-2.4.0完全分布式集群搭建

新版本日志系统预计存储在TB级别,并且需要统计分析一些数据(离线统计,非即时),所以选择廉价linux服务器搭建一个hadoop集群,1个namenode,1个resourcemanager(m...
0推荐
118K 浏览

一文读懂大数据:Hadoop,大数据技术及相关应用

这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉,变成一个熟知其概念和意义的“内行人”,
0推荐
79K 浏览

Hadoop2.2.0中HDFS的高可用性实现原理

在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现...
0推荐
12K 浏览

Hadoop集群环境下网络架构的设计与优化

大数据时代,研究大数据的IT 厂商把研究重心放在优化大数据系统软件架构、优化业务逻辑、优化数据分析算法、优化节点性能等方向,而忽略了大数据环境基础设置中网络环节的评估和优化。
0推荐
64K 浏览

微软的开源 Hadoop 的 .NET SDK 开发包

Microsoft .NET SDK For Hadoop 是个 Hadoop WebClient 的 .NET SDK。这个工具包提供 .NET API ,用来访问 HDInsight 方面(...
jopen 11年前   
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档