0推荐
11K 浏览

容器和微服务在Hadoop生态系统中找到一席之地

云计算是将Hadoop、Spark和其他大数据技术推向虚拟化、容器和微服务的动力之一。还有许多基础设施需要构建,但目前已经有公司开始用技术简化这个过程。
jsho1213 8年前   
0推荐
13K 浏览

大数据领域开源技术 除了Hadoop你还知道哪些

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展。
0推荐
14K 浏览

Hadoop和Spark框架的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是停留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。
0推荐
16K 浏览

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系...
0推荐
32K 浏览

Kafka实战:从RDBMS到Hadoop,七步实现实时传输

本文是关于Flume成功应用Kafka的研究案例,深入剖析它是如何将RDBMS实时数据流导入到HDFS的Hive表中。
0推荐
65K 浏览

Kudu:支持快速分析的新型Hadoop存储系统

Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Had...
0推荐
28K 浏览

你应该知道的大数据领域12大动向

最近这几周大数据领域可谓动作频频,初创公司和老牌企业都纷纷发布新品,更新或改进现有的产品系列,以及达成战略性关系。
0推荐
12K 浏览

如何让Hadoop支持优先级且性能可预测

Apache Hadoop近十年的成长证明,用开源技术处理与访问海量数据并不是什么炒作。然而,Hadoop的一个缺点是不可预测性。Hadoop不能确保企业的关键任务按时完成,也不能完全发挥集群的性能。
0推荐
27K 浏览

呼之欲出!比Spark快10倍的Hadoop3.0有哪些实用新特性?

Apache  hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。
0推荐
14K 浏览

Hadoop运维经验杂谈

分为Administrator和Development两门课程 运维事故
0推荐
21K 浏览

自定义Spark Partitioner提升es-hadoop Bulk效率

之前写过一篇文章, 如何提高ElasticSearch 索引速度 。除了对ES本身的优化以外,我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强,cpu密集型的很适合。这...
0推荐
22K 浏览

Hadoop 入门实践

Hadoop 包括如下几个模块:
0推荐
35K 浏览

搭建docker hadoop环境

因为很难真正的有一个集群环境。在一般的条件下想要模拟hadoop集群的话,我只好选择docker 关于docker的简介我就不在这里写了。
OJHVal 9年前   
0推荐
23K 浏览

从零自学Hadoop(18):Hive的CLI和JDBC

文章是哥(mephisto)写的,SourceLink 上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述。了解到了基本的hive导出操作。这里,我们将对hive的CL...
0推荐
13K 浏览

Hadoop2.6.2的Eclipse插件的使用

插件下载后,放在eclipse安装目录下的plugins文件夹下,然后重启eclipse,就会发现Project Explorer窗口里多出DFS Locations这一项,对应的是HDFS里存...
0推荐
15K 浏览

hadoop与mysql数据库的那点事

转眼间已经接触了hadoop两周了,从之前的极力排斥到如今的有点喜欢,刚开始被搭建hadoop开发环境搞得几乎要放弃,如今学会了编写小程序,每天都在成长一点挺好的,好好努力,为自己的装备库再填一...
0推荐
26K 浏览

[Apache Kafka]Kafka集成

少量数据的实时处理可以使用JMS(Java Messaging Service)这类技术,但是数据量很大时便会出现性能瓶颈。而且这些方案不适合横向扩展。
0推荐
17K 浏览

让python在hadoop上跑起来

duang~好久没有更新博客啦,原因很简单,实习啦~好吧,我过来这边上班表示觉得自己简直弱爆了。第一周,配置环境;第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透...
0推荐
21K 浏览

Hadoop 压缩实现分析

Hadoop 作为一个较通用的海量数据处理平台,每次运算都会需要处理大量数据,我们会在 Hadoop 系统中对数据进行压缩处理来优化磁盘使用率,提高数据在磁盘和网络中的传输速度,从而提高系统处理...
0推荐
33K 浏览

Hadoop - Zeppelin 使用心得

在编写 Flink,Spark,Hive 等相关作业时,要是能快速的将我们所编写的作业能可视化在我们面前,是件让人兴奋的时,如果能带上趋势功能就更好了。今天,给大家介绍这么一款工具。它就能满足上...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档