数据挖掘

jopen 10年前

什么是数据挖掘?

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据挖掘,与信息检索的区别。

数据挖掘任务

预测建模,有两类预测建模任务:分类(classification)和回归(regression)。分类用于预测离散的目标变量;回归用于预测连续的目标变量。如预测花的模型。

关联分析,用来发现描述数据中强关联特征的模式。如购物篮分析。

聚类分析,旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

异常检测,任务是识别其特征显著不同于其他数据的观测值。如信用卡欺诈检测。

 

分类法是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法基于规则的分类法神经网络支持向量机朴素贝叶斯分类法。这些技术都使用一种学习算法确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。

决策树:原则上讲,对于给定的属性集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次优决策树。这些算法通常采用贪心策略,在选择划分数据的属性时,采取一系列局部最优决策来构造决策树,Hunt算法就是一种这样的算法。Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART。

基于规则的分类法:最近邻分类器,是一种消极学习方法不需要建立模型,然而,分类测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。相反,积极学习方法通常花费大量计算资源来建立模型,模型一旦建立,分类测试样例就会很快。贝叶斯分类器,是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。贝叶斯分类器的两种实现:朴素贝叶斯和贝叶斯信念网络。

神经网络

支持向量机

随机森林

 

聚类算法:

K均值,是基于原型的、划分的聚类技术。它试图发现用户指定个数(K)的簇(由质心代表)。K均值用质心定义原型,其中质心是一组点的均值

转载:http://my.oschina.net/u/923087/blog/279133