特征选择与特征提取
在我刚开始接触机器学习的时候,总会被特征选择(feature selection)与特征提取(feature extraction)这两个概念搞得晕头转向,当我在看一些论文时,只要遇到了这两个概念就会让我很苦恼,所以有段时间索性就不加区分地把这两个概念当作一个意思在使用。而网上相当一部分文章也是不加区分地使用这两个概念,这就让我更加地迷惑了。
直到有一天我在阅读scikit-learn源码及其文档的时候,偶然间发现scikit-learn将特征选择和特征提取分在了两个文档里进行描述,于是深入进去学习后,终于明白了二者的区别。
首先需要说明的是,特征选择和特征提取是两个完全不同的概念。
特征选择是指去掉无关特征,保留相关特征的过程,也可以认为是从所有的特征中选择一个最好的特征子集。特征选择本质上可以认为是降维的过程。
特征提取是指将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。比如说,文本是由一系列文字组成的,这些文字在经过分词后会形成一个词语集合,对于这些词语集合(原始数据),机器学习算法是不能直接使用的,我们需要将它们转化成机器学习算法可以识别的数值特征(固定长度的向量表示),然后再交给机器学习的算法进行操作。再比如说,图片是由一系列像素点构(原始数据)成的,这些像素点本身无法被机器学习算法直接使用,但是如果将这些像素点转化成矩阵的形式(数值特征),那么机器学习算法就可以使用了。
从上面的概念可以看出,特征提取实际上是把原始数据转化为机器学习算法可以识别的数值特征的过程,不存在降维的概念,特征提取不需要理会这些特征是否是有用的;而特征选择是在提取出来的特征中选择最优的一个特征子集。
关于特征选择的方法,可以参见博客:http://blog.csdn.net/henryczj/article/details/41043883
这里以文本分类为例来看一下特征提取。
假设一个语料库里包含了很多文章,在对每篇文章作了分词之后,可以把每篇文章看作词语的集合。然后将每篇文章作为数据来训练分类模型,但是这些原始数据是一些词语并且每篇文章词语个数不一样,无法直接被机器学习算法所使用,机器学习算法需要的是定长的数值化的特征。因此,我们要做的就是把这些原始数据数值化,这就对应了特征提取。如何做呢?
1. 对训练数据里的每一篇文章,我们进行词语的统计,以形成一个词典向量。词典向量里包含了训练数据里的所有词语(假设停用词已去除),且每个词语代表词典向量中的一个元素。
2. 在经过第一步的处理后,每篇文章都可以用词典向量来表示。这样一来,每篇文章都可以被看作是元素相同且长度相同的向量,不同的文章具有不同的向量值。这也就是表示文本的词袋模型(bag of words)。
3. 针对于特定的文章,如何给表示它的向量的每一个元素赋值呢?最简单直接的办法就是0-1法了。简单来说,对于每一篇文章,我们扫描它的词语集合,如果某一个词语出现在了词典中,那么该词语在词典向量中对应的元素置为1,否则为0。这是最简单的方式。其它的方式还包括IR中著名的tf-idf。
在经过上面三步之后,特征提取就完成了。对于每一篇文章,其中必然包含了大量无关的特征,而如何去除这些无关的特征,就是特征选择要做的事情了。
关于词袋模型(bag of words)的优缺点以及到底是用tf-idf为向量赋值还是0-1法为向量赋值,这里不作讨论了。
需要注意的是,tf-idf可以看做是特征提取的一个步骤。但实践中很多人将tf-idf作为特征选择的一个方法在使用,这是错误的,尽管它在有些时候效果还不错。