贝叶斯学习--极大后验概率假设和极大似然假设

jopen 9年前

在机器学习中，通常我们感兴趣的是在给定训练数据D时，确定假设空间H中的最佳假设。

所谓最佳假设，一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能（most probable）假设。

贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲，贝叶斯法则提供了一种计算假设概率的方法，它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。

要精确地定义贝叶斯理论，先引入一些记号。

1、P(h)来代表还没有训练数据前，假设h拥有的初始概率。P(h)常被称为h的先验概率（prior probability ），它反映了我们所拥有的关于h是一正确假设的机会的背景知识。如果没有这一先验知识，那么可以简单地将每一候选假设赋予相同的先验概率。

2、P(D)代表将要观察的训练数据D的先验概率（换言之，在没有确定某一假设成立时，D的概率）。

3、P(D|h)代表假设h成立的情形下观察到数据D的概率。更一般地，我们使用P(x|y)代表给定y时x的概率。

在机器学习中，我们感兴趣的是P(h|D)，即给定训练数据D时h成立的概率。

P(h|D)被称为h的后验概率（posteriorprobability），因为它反映了在看到训练数据D后h成立的置信度。

应注意，后验概率P(h|D)反映了训练数据D的影响；相反，先验概率P(h)是独立于D的。

贝叶斯法则是贝叶斯学习方法的基础，因为它提供了从先验概率P(h)以及P(D)和P(D|h)计算后验概率P(h|D)的方法。

贝叶斯公式

直观可看出，P(h|D)随着P(h)和P(D|h)的增长而增长。同时也可看出P(h|D)随P(D)的增加而减少，这是很合理的，因为如果D独立于h被观察到的可能性越大，那么D对h的支持度越小。

极大后验（maximum a posteriori, MAP）假设：

学习器考虑候选假设集合H并在其中寻找给定数据D时可能性最大的假设h∈H（或者存在多个这样的假设时选择其中之一）这样的具有最大可能性的假设被称为极大后验（maximum a posteriori, MAP）假设。确定MAP假设的方法是用贝叶斯公式计算每个候选假设的后验概率。

更精确地说当下式成立时，称h_MAP为—MAP假设：

（在最后一步我们去掉了P(D)，因为它是不依赖于h的常量）

极大似然（maximum likelihood，ML）假设

在某些情况下，可假定H中每个假设有相同的先验概率（即对H中任意h_i和h_j，P(h_i)=P(h_j)）。这时可把上式进一步简化，只需考虑P(D|h)来寻找极大可能假设。P(D|h)常称为给定h时数据D的似然度（likelihood），而使P(D|h)最大的假设被称为极大似然（maximum likelihood，ML）假设h_ML。

为了使上面的讨论与机器学习问题相联系，我们把数据D称作某目标函数的训练样例，而把H称为候选目标函数空间。

实际上，贝叶斯公式有着更为普遍的意义。它同样可以很好地用于任意互斥命题的集合H，只要这些命题的概率之和为1（例如：“天空是兰色的”和“天空不是兰色的”）。有时将H作为包含目标函数的假设空间，而D作为训练例集合。其他一些时候考虑将H看作一些互斥命题的集合，而D为某种数据。

贝叶斯推理的结果很大地依赖于先验概率，要直接应用方法必须先获取该值。

来自： http://blog.csdn.net//u011067360/article/details/22879807

贝叶斯学习--极大后验概率假设和极大似然假设

相关经验

目录