0推荐
49K 浏览

开源数据分析工具:Druid

Druid 是一个针对在线分析处理(OLAP)事件数据而设计的开源数据存储分析工具。它提供了低延迟(实时)数据摄取、灵活的数据探索及快速的数据聚合功能。现存 的已实施的Druid项目已经能处理数...
ygfb 9年前   
0推荐
42K 浏览

数据挖掘的学习资源

数据挖掘(Data Mining)作为一个领域,比机器学习要大,偏应用。互联网公司也大量使用数据挖掘技术,作为即将毕业进入互联网公司从事机器学习算法开发的我,最近计划系统了解一下这方面的理论和技...
jopen 9年前   
0推荐
43K 浏览

数据挖掘与预测分析术语总结

分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、应用。
jopen 9年前   
0推荐
113K 浏览

开源 BI 工具 Metabase 简介

这是 Metabase 官网上的介绍。BI 工具其实非常多,但却没有一种适合所有场景,各种产品的定位也各不相同。个人觉得 Metabase 相对于其他 BI 产品具有以下特性:
jopen 9年前   
0推荐
21K 浏览

数据挖掘入门算法整理

最近正打算学习一些数据挖掘方面的知识,开始看了一些相关博文,但是太过零碎,一直对此没有一个较为系统的认识。周末在图书馆闲逛,偶然看见《大 话数据挖掘》一书,发现讲的比较有条理,还蛮适合入门的,因...
jopen 9年前   
0推荐
72K 浏览

数据挖掘(10):卷积神经网络算法的一个实现

从理解卷积神经到实现它,前后花了一个月时间,现在也还有一些地方没有理解透彻,CNN还是有一定难度的,不是看哪个的博客和一两篇论文就明白了,主要还是靠自己去专研,阅读推荐列表在末尾的参考文献。目前...
jopen 9年前   
0推荐
26K 浏览

数据挖掘(9):BP神经网络算法与实践

神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了。神经网络有很多种:前向传输网络、反向传输网络、递归神经网络、卷积神经网络等。本文介绍基本的反向传输神经网络(Backprop...
jopen 9年前   
0推荐
40K 浏览

数据挖掘(8):朴素贝叶斯分类算法原理与实践

隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践。
jopen 9年前   
0推荐
33K 浏览

数据挖掘(1):关联规则挖掘基本概念与Aprior算法

我计划整理数据挖掘的基本概念和算法,包括关联规则挖掘、分类、聚类的常用算法,敬请期待。今天讲的是关联规则挖掘的最基本的知识。
jopen 9年前   
0推荐
37K 浏览

数据挖掘(2):关联规则FpGrowth算法

上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一...
jopen 9年前   
0推荐
22K 浏览

K-均值聚类分析

上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,...
jopen 9年前   
0推荐
22K 浏览

数据挖掘(6):决策树分类算法

从这篇开始,我将介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 这篇先...
jopen 9年前   
0推荐
17K 浏览

数据挖掘(3):关联规则评价

前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。
jopen 9年前   
0推荐
18K 浏览

数据挖掘(5):使用mahout做海量数据关联规则挖掘

上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop...
jopen 9年前   
0推荐
10K 浏览

数据挖掘中易犯的10大错误

0. 缺乏数据(Lack Data) 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如: -欺诈侦测(Fraud Detection):在上百万的交易中,...
jopen 9年前   
0推荐
23K 浏览

数据挖掘(4):使用weka做关联规则挖掘

前面几篇介绍了关联规则的一些基本概念和两个基本算法,但实际在商业应用中,写算法反而比较少,理解数据,把握数据,利用工具才是重要的,前面的基础篇是对算法的理解,这篇将介绍开源利用数据挖掘工具w...
jopen 9年前   
0推荐
71K 浏览

数据挖掘研究方向、热点以及对大数据研究的认识

通过上网查询以及看同行对会议的公共认识,数据挖掘领域的顶级会议是 KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining...
jopen 9年前   
0推荐
39K 浏览

kettle转换和作业插件开发及调试

这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程。结果各种理由,一推再推。今天索性将这篇文档发布出来,分享给大 家,例子等有空再补上。这是一篇基于kettle3.2基...
jopen 9年前   
0推荐
19K 浏览

LinkedIn 开源 OLAP 存储和分析系统:Pinot

Pinot 是一个实时分布式的 OLAP 数据存储和分析系统。LinkedIn 使用它实现低延迟可伸缩的实时分析。Pinot 从离线数据源(包括 Hadoop 和各类文件)和在线数据源(如 Ka...
jopen 9年前   
0推荐
16K 浏览

Hive安装手册

Hive安装手册
jopen 9年前   
1 2 3 4 5 6 7 8 9

经验分享,提升职场影响力

投稿

热门问答

    热门文档