正向概率和逆向概率

正向概率：假设袋子里面有N个红色球，有M个黑色球，现在我们伸手一摸，此时你摸出黑色球的概率是多少？

逆向概率：事先我们并不知道袋子里面黑色球和红色球的比例，而是闭着眼睛摸出一个球（或者好几个球），观察这些取出来球的颜色之后，那么我们可以就对袋子里面的是黑红球的比例做出推测。

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

黑球和红球问题

这就是正向概率和逆向概率的不同，那么为什么要使用朴素贝叶斯呢？因为我们现实的世界本身就是不确定的，我们往往看到的是一个问题的结果，就像逆向的概率一样，所以我们可以通过结果对原因进行猜测，这就是逆向概率的问题，而朴素贝叶斯就是为了解决逆向概率的问题。

朴素贝叶斯

朴素贝叶斯是贝叶斯算法的一种特例，朴素贝叶斯之所以朴素是因为引入了假设，比如：如果认为每个样本都是独立的，而正因为假设的引入，使得模型简单易理解，同时如果算法训练得当，往往能收获不错的分类效果。

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

朴素贝叶斯公式

这个公式就是贝叶斯公式，当我们想要求在特征x条件下样本C=1的概率，我们可以将问题转化为，所有C=1样本中x特征的比例，以及所有样本中类别C=1的比例，因为这两个比例都是先验经验，我们可以根据历史样本数据轻松获取，从而将一个复杂问题变成了一个简单的统计问题，这就是朴素贝叶斯的应用了。

垃圾邮件分类问题

我们先来看一下垃圾邮件的问题，给定一封邮件D判定它是否是垃圾邮件，其实D是由这封邮件的所有单词组成的。我们用h+表示垃圾邮件，使用h-来表示正常邮件。那么当算法获取到这封邮件的时候，如何能够确定这封邮件是正常邮件还是垃圾邮件，这里我们使用朴素贝叶斯算法完成这个任务。其实问题就是求P(h+|D）以及P(h-|D)问题，哪个概率大我们就可以认为邮件是垃圾邮件还是非垃圾邮件。

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

垃圾邮件

朴素贝叶斯解决垃圾邮件分类问题

我们很难判断P(h+|D）以及P(h-|D)，但此时我们可以使用朴素贝叶斯算法来对问题进行转换，具体来说我们可以将问题转换成下面这样：

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

垃圾邮件判别公式

P(h+)和p(h-）表示先验概率，这个很容易求出来，我们只需要看现有邮件训练集中有多少封邮件是垃圾邮件，有多少封邮件是正常邮件，我们求其所占比例就可以得到P(h+)和p(h-）。

D表示一封信，它是由这封信中所有单词组成的，假如这封信中由N个单词组成，d1，d2，d3…dN，这些单词就是样本的特征，所以p(D|h+）可以表示为P(d1，d2，d3…dN|h+）,但因为朴素贝叶斯假设所有特征相互独立，所以将其转换为P(d1,d2,d3…dN|h+)=p(d1|h+)*p(d2|h+)*p(d3|h+)*…*p(dN|h+)。

p(di|h+）这个概率很好计算，只要统计这个单词在所有垃圾邮件中出现的频率就好了，比如：1000封垃圾邮件中总共有100000个词，di出现10000次，那么p(di|h+)=1/10,其它的以此类推，这样最终可以计算出如下所示的先验概率

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

先验概率

像垃圾邮件这类的问题，我们可以通过训练样本获得大量的先验知识，所以我们可以将垃圾邮件的后验概率转变为先验概率，这样求解问题就变得简单了，这就是机器学习的朴素贝叶斯算法在垃圾邮件分类的应用。

基于机器学习朴素贝叶斯算法完成经典的垃圾邮件分类任务

正向概率和逆向概率

朴素贝叶斯

垃圾邮件分类问题

朴素贝叶斯解决垃圾邮件分类问题

相关推荐