登录
注册
首页
项目
经验
代码
文库
问答
博客
资讯
数据挖掘
(共
173
篇经验)
0
推荐
28K
浏览
数据仓库中的 SQL 性能优化(Hive篇)
一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致...
jopen
10年前
Hive
数据挖掘
0
推荐
85K
浏览
开源的BI工具:re:dash
re:dash 是一款开源的BI工具,提供了基于web的数据库查询和数据可视化功能。
jopen
10年前
数据挖掘
BI
0
推荐
67K
浏览
开源的MySQL数据仓库解决方案:Infobright
Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用,快速安装部署,使用中无需复杂操作,能大幅度减少管理工作;在应对50TB甚至更多数据量进行多并发...
jopen
10年前
数据挖掘
Infobright
0
推荐
64K
浏览
Hive深入浅出
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi...
jopen
10年前
Hive
数据挖掘
0
推荐
18K
浏览
数据挖掘
什么是数据挖掘? 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都...
jopen
10年前
数据挖掘
0
推荐
23K
浏览
图数据挖掘浅析
互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习 过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到前面的链表,队列,树都是在图上面...
jopen
10年前
数据挖掘
0
推荐
24K
浏览
web数据挖掘工具:Pattern
Pattern由比利时安特卫普大学CLiPS实验室出品,客观的说,Pattern不仅仅是一套文本处理工具,它更是一套web数据挖掘工具,囊括了数据抓取模块(包括Google, Twitter, ...
jopen
10年前
数据挖掘
pattern
0
推荐
56K
浏览
通过腾讯shuffle部署对shuffle过程进行详解
摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle...
jopen
10年前
数据挖掘
shuffle
0
推荐
176K
浏览
Hive SQL 编译过程详解
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳...
jopen
10年前
Hive
数据挖掘
0
推荐
34K
浏览
腾讯分布式数据仓库:TDW
TDW,腾讯分布式数据仓库项目,在Hadoop的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法,支持PB及的存储和TB及的计算等。
jopen
11年前
数据挖掘
TDW
0
推荐
34K
浏览
一张图看懂Kettle
Pentaho Kettle , 强大的PDI (ETL)工具。
jopen
11年前
数据挖掘
Kettle
0
推荐
79K
浏览
数据清洗工具OpenRefine
数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。 怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。
jopen
11年前
数据挖掘
OpenRefine
0
推荐
23K
浏览
Hive查询
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这...
jopen
11年前
Hive
数据挖掘
0
推荐
43K
浏览
Hive配置运行及表的操作
Hive的配置文件名为hive-site.xml,你可以在Hive安装目录下的conf目录下找到这个文件。如果你发现该目录下没有这个文件,你可以通过复制hive-default.xml.temp...
jopen
11年前
Hive
数据挖掘
0
推荐
20K
浏览
Hive安装简介
Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Had...
jopen
11年前
Hive
数据挖掘
0
推荐
20K
浏览
Hive自定义函数
当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。
jopen
11年前
Hive
数据挖掘
0
推荐
110K
浏览
开源的数据挖掘工具
本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文(Open-Source Tools for Data Mining)。我仅仅选择其中的要点和大家共享,同时加入一些个...
jopen
11年前
数据挖掘
0
推荐
83K
浏览
pig的各种运行模式与运行方式详解
Pig 有两种运行模式: Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候, Pig 将只访问本地一台主机;当 Pig 在 MapReduce 模式运行的...
jopen
11年前
数据挖掘
Pig
0
推荐
58K
浏览
pig中各种sql语句的实现
Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。使用...
jopen
11年前
数据挖掘
Pig
0
推荐
49K
浏览
分布式数据仓库系统:Apache Tajo
Tajo 是一个基于 Hadoop 实现的分布式数据仓库系统,特点是低延迟、高可伸缩,提供专用查询和针对存储在HDFS上的大数据集和其他数据源的ETL 工具。
jopen
11年前
数据挖掘
Apache Tajo
1
2
3
4
5
6
7
8
9
经验分享,提升职场影响力
投稿
热门问答
热门文档