0推荐
18K 浏览

Mahout快速入门教程

Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就 是基于hadoop实现,把很多以...
lidki 10年前   
0推荐
21K 浏览

数据挖掘的十种分析方法让你任性挑选

数据挖掘(Data mining),又译为资料探勘、数据挖掘、数据采矿。它是数据库知识发现(英文:Knowledge-Discovery in Databases,缩写:KDD)中的一个步骤。数...
cmb2 10年前   
0推荐
28K 浏览

数据挖掘之九大定律

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。
jopen 10年前   
0推荐
25K 浏览

数据可挖掘的知识类型

概念/类描述就是通过对某类对象关联数据的汇总,分析和比较,用汇总的简洁的精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为:特征性描述和区别性描述。
0推荐
140K 浏览

几个可用于数据挖掘和统计分析的java库

WEKA:WEKA是一个可用于数据挖掘任务的机器学习算法集合。该算法可以直接应用到数据集或从自己的Java代码调用。 WEKA包含数据预处理,分类,回归,聚类,关联规则,和可视化工具。它也非常适...
cwf8 10年前   
0推荐
35K 浏览

数据挖掘,数据分析,人工智能及机器学习课程汇总

数据挖掘,数据分析,人工智能及机器学习课程汇总
jopen 10年前   
0推荐
45K 浏览

思科安全大数据分析框架:OpenSOC

思科在 BroCON 大会上亮相了其安全大数据分析架构 OpenSOC,引起了广泛关注。OpenSOC 是一个针对网络包和流的大数据分析框架,它是大数据分析与安全分析技术的结合, 能够实时的检测...
jopen 10年前   
0推荐
81K 浏览

入门新手如何系统地学习数据挖掘?

数据挖掘:What?Why?How? 磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 数据初期的准备通常占整个数据挖掘项目工作量的70%左右。
jopen 10年前   
0推荐
22K 浏览

Facebook的数据仓库是如何扩展到300PB的

Facebook在数据仓库上遇到的存储可扩展性的挑战是独一无二的。我们基于Hive的数据仓库中存储了超过300PB的数据,并且以每日新增 600TB的速度增长。去年这个数据仓库所存储的数据量增长...
jopen 10年前   
0推荐
80K 浏览

Hive在腾讯数据仓库TDW中的应用

Hive是Apache基金会下的一个在Hadoop上构建数据仓库的开源软件,它支持通过类SQL的HQL语言操作结构化数据。Hive的主要功 能是将类SQL的HQL语言翻译成MapReduce代码...
jopen 10年前   
0推荐
78K 浏览

5个开源的商业智能工具

  很难想象如果没有正确的信息来作为支撑,如何做出完美的商业决定。商业智能(BI)工具可以很好的帮助你从所收集和存储的大量的商业数据中提取和认识信息。换句话说,它可以将一堆数据转化为有意义的数据...
jopen 10年前   
0推荐
149K 浏览

开源ETL工具:Kettle

Kettle也叫PDI,在2006年Kettle加入了开源的BI组织Pentaho,正式命名为PDI,英文全称为Pentaho Data Integeration。Kettle是“Kettle ...
jopen 10年前   
0推荐
24K 浏览

Hive:基于hadoop的数据仓库工具

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为 MapReduce任务进行运行。其优点是学习成本低,可...
jopen 10年前   
0推荐
33K 浏览

Kylin:基于Hadoop的开源数据仓库OLAP分析引擎

Kylin是一个开源、分布式的OLAP分析引擎,它由eBay公司开发,并且基于Hadoop提供了SQL接口和OLAP接口,能够支持TB到 PB级别的数据量。OLAP即联机分析处理,它能够帮助分析...
jopen 10年前   
0推荐
37K 浏览

开源MySQL数据仓库解决方案:Infobright

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方 案,高强度的数据压缩,优化的统计计算(类似sum/avg...
jopen 10年前   
0推荐
35K 浏览

Go开发的基于Hadoop的ETL抽取工具:Crunch

快速开发,快速运行,基于Go工具包。实现基于 Hadoop 的 ETL 和特性抽取工具。
jopen 10年前   
0推荐
61K 浏览

六款强大的开源数据挖掘工具推荐

当今这个大数据时代,数据就等于金钱。随着向一个基于应用的领域过渡,数据则呈现出了指数级增长。然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、...
jopen 10年前   
0推荐
73K 浏览

来自 eBay 的 OLAP 分析引擎:Kylin

Kylin 是一个来自 eBay 公司开发的开源分布式OLAP 分析引擎,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 级别的数据量。
jopen 10年前   
0推荐
78K 浏览

数据挖掘-分词入门

谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数...
jopen 10年前   
0推荐
111K 浏览

Hive权限介绍

目前hive支持简单的权限管理,默认情况下是不开启,这样所有的用户都具有相同的权限,同时也是超级管理员,也就对hive中的所有表都有查看和改动的权利,这样是不符合一般数据仓库的安全原则的。Hiv...
jopen 10年前   
1 2 3 4 5 6 7 8 9

经验分享,提升职场影响力

投稿

热门问答

    热门文档