数据挖掘

0推荐

28K 浏览

一个Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致...

jopen 11年前

Hive 数据挖掘

0推荐

85K 浏览

re:dash 是一款开源的BI工具，提供了基于web的数据库查询和数据可视化功能。

jopen 11年前

数据挖掘 BI

0推荐

67K 浏览

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright简单易用，快速安装部署，使用中无需复杂操作，能大幅度减少管理工作；在应对50TB甚至更多数据量进行多并发...

jopen 11年前

数据挖掘 Infobright

0推荐

64K 浏览

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hi...

jopen 11年前

Hive 数据挖掘

0推荐

18K 浏览

什么是数据挖掘？数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都...

jopen 11年前

数据挖掘

0推荐

23K 浏览

互联网发展至今，数据规模越来越大，数据结构越来越复杂，而且对系统的需求越来越高。如果学习过数据结构，那么都知道图是放在最后一个结构，当你学习了图，那么应该感知到前面的链表，队列，树都是在图上面...

jopen 11年前

数据挖掘

0推荐

24K 浏览

Pattern由比利时安特卫普大学CLiPS实验室出品，客观的说，Pattern不仅仅是一套文本处理工具，它更是一套web数据挖掘工具，囊括了数据抓取模块（包括Google, Twitter, ...

jopen 11年前

数据挖掘 pattern

0推荐

56K 浏览

摘要：腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle...

jopen 11年前

数据挖掘 shuffle

0推荐

176K 浏览

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳...

jopen 11年前

Hive 数据挖掘

0推荐

34K 浏览

TDW，腾讯分布式数据仓库项目，在Hadoop的基础上开发的腾讯内部最大的离线数据处理平台。TDW支持Oracle功能兼容的SQL语法，支持PB及的存储和TB及的计算等。

jopen 11年前

数据挖掘 TDW

0推荐

34K 浏览

Pentaho Kettle ，强大的PDI （ETL）工具。

jopen 11年前

数据挖掘 Kettle

0推荐

79K 浏览

数据经常被称为一座金矿，尤其是在当今数据驱动的经济环境下更是如此。怎样把数据集在OpenRefine中进行转换，优化数据的质量以便于在真实场景下重用它们。

jopen 11年前

数据挖掘 OpenRefine

0推荐

23K 浏览

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这...

jopen 11年前

Hive 数据挖掘

0推荐

43K 浏览

Hive的配置文件名为hive-site.xml，你可以在Hive安装目录下的conf目录下找到这个文件。如果你发现该目录下没有这个文件，你可以通过复制hive-default.xml.temp...

jopen 11年前

Hive 数据挖掘

0推荐

20K 浏览

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下，用户提交的查询将被Hive转换为MapReduce作业并提交给Had...

jopen 11年前

Hive 数据挖掘

0推荐

20K 浏览

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

jopen 11年前

Hive 数据挖掘

0推荐

110K 浏览

本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文（Open-Source Tools for Data Mining）。我仅仅选择其中的要点和大家共享，同时加入一些个...

jopen 11年前

数据挖掘

0推荐

83K 浏览

Pig 有两种运行模式： Local 模式和 MapReduce 模式。当 Pig 在 Local 模式运行的时候， Pig 将只访问本地一台主机；当 Pig 在 MapReduce 模式运行的...

jopen 11年前

数据挖掘 Pig

0推荐

58K 浏览

Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。使用...

jopen 11年前

数据挖掘 Pig

0推荐

49K 浏览

Tajo 是一个基于 Hadoop 实现的分布式数据仓库系统，特点是低延迟、高可伸缩，提供专用查询和针对存储在HDFS上的大数据集和其他数据源的ETL 工具。

jopen 11年前

数据挖掘 Apache Tajo

数据仓库中的 SQL 性能优化（Hive篇）

开源的BI工具：re:dash

开源的MySQL数据仓库解决方案：Infobright

Hive深入浅出

图数据挖掘浅析

web数据挖掘工具：Pattern

通过腾讯shuffle部署对shuffle过程进行详解

Hive SQL 编译过程详解

腾讯分布式数据仓库：TDW

一张图看懂Kettle

数据清洗工具OpenRefine

Hive查询

Hive配置运行及表的操作

Hive安装简介

Hive自定义函数

开源的数据挖掘工具

pig的各种运行模式与运行方式详解

pig中各种sql语句的实现

分布式数据仓库系统：Apache Tajo

热门问答

热门文档