学习机器学习前,你首先要掌握这些概率论基础知识

lgblove 2017-09-21

机器学习中有很多十分重要的核心基础概念,掌握这些概念对我们进行机器学习和数据科学的相关工作十分重要,可以帮助我们发现一些以往容易被忽视的新线索。那么其中很重要的一个就是——概率。

有的朋友在看见概率的时候可能会问,我们已经有了那么多很好用的数学工具了,为什么还需要概率呢?我们拥有可以解决多种尺度并衡量其变化的微积分;拥有可以借方程做变化的线性代数,还有很多很多的数学工具可以解决几乎我们能想到的所有难题。概率似乎不是那么重要了?

但事实上,我们生活在一个充满混沌和不确定的世界里,很多事情没办法精确的测量。当我们进行研究的时候,面对的是随机误差和不确定性的干扰。不确定性几乎无处不在,我们需要了解它的习性,掌握并利用它,这就是我们需要概率理论和统计的原因。

  • 如今概率已经深入到人工智能、粒子物理、社会科学、生物信息科学等方方面面,甚至我们日常生活中的点点滴滴。
  • 概率和统计的概念如此重要,下面我们就为大家阐述概率相关的不同概率,希望大家可以对概率有更清晰的认识。

频率论概率

想象一下我们要测量一个硬币是否均匀,需要进行怎样的实验呢?我们需要不断的抛硬币,并记录每一次的朝向,重复1000次后让我们来看看实验的结果。如果结果是600次朝上400 次朝下,那么我们将得到60%和40%的概率。这个概率就可以作为硬币朝上或者朝下的概率,这样的方式成为频率派的概率观点。

条件概率

频率派的观点需要通过大量实验的记录来总结。但条件概率却是不一样的观点,在事件B发生的情况下A发生的概率。让我们来看两个例子:

  • 我们看到电闪雷鸣的情况下下雨的概率是多少?
  • 艳阳天下雨的概率是多少?

学习机器学习前,你首先要掌握这些概率论基础知识

在上面的欧拉图中我们可以看大P(Rain | Thunder) = 1, 意味着打雷就会下雨(假定100%),但对于 P(Rain | Sunny)呢?虽然这个概率很小,但是我们如何通过一个公式将它表达出来呢?这就引出了条件概率的表达式:

学习机器学习前,你首先要掌握这些概率论基础知识

我们通过将同时下雨和出太阳的概率除以出太阳的概率算出了出太阳的情况下会下雨的条件概率。

独立和依赖事件

如果某一事件发生的概率完全不受到其他事件的影响,我们就称其为独立事件。 例如我们在抛色子是,第一笔抛了2,第二次抛2 的概率,这两次抛是独立的,那么同时得到2 的概率可以写为:

学习机器学习前,你首先要掌握这些概率论基础知识

但是为什么上面的公式是对的呢?我们首先将第一次和第二次抛色子事件分别写成A和B,并将同时得到2 的概率写成事件A和B的联合概率分布:

这时在等式两边除以P(B)并利用条件概率的定义我们得到下面的式子:

学习机器学习前,你首先要掌握这些概率论基础知识

我们发现 P(A | B) = P(A)。这意味着A与B是相对独立的,B的发生对A并不造成任何影响。

贝叶斯概率

频率派一般会利用统计的方法找出与模型的参数,而贝叶斯理论则认为模型的参数也满足一定的分布。在贝叶斯统计中,每一个参数拥有自己的统计分布,在一定的数据下给出参数的可能性的分布:

学习机器学习前,你首先要掌握这些概率论基础知识

这一公式的基础就是上面提到的条件概率:

学习机器学习前,你首先要掌握这些概率论基础知识

尽管表达式十分简单,但是贝叶斯理论十分强大,广泛应用在各个学科,甚至产生了一门称为贝叶斯统计的统计学分支。如果你对贝叶概率感兴趣,下面这个博客是不错的学习资料:https://www.countbayesie.com/blog/2015/2/18/bayes-theorem-with-lego

分布

有的小伙伴又会问了,贝叶斯概率很好,那到底什么是分布呢?分布其实是一个描述某一个量不同取值范围及其概率的(实验或者数学推导)函数,在函数中有一些参数可以调整这一分布的行为(范围和取值概率)。

当我们测量硬币正反的时候得到了一个分布,这称之为经验的概率分布。在现实生活中,很多类似事情是可以通过概率分布来描述的。例如抛硬币实验就满足伯努利分布,并可以利用这个分布来计算n次实验后哪一面朝上的概率。

在概率论中,还需要明确一个称为随机变量的概念。每一个随机变量都有自己的分布,我们一般约定俗成的将随机变量写成大写字母来表示,并用~来表示其所属的分布:

上式意味着随机变量X满足0.6的伯努利分布。

连续和离散分布

概率分布一般分为两种情况:离散分布和连续分布。离散分布是指随机变量只在一些有限的位置取值,例如抛硬币的伯努利分布,离散分布一般利用概率质量函数Probability Mass Functions (PMF) 来定义;而连续分布一般用来处理无穷多个随机变量取值的情况。例如测量带有噪音的速度就是一个连续分布的例子。连续分布一般利用概率密度函数Probability Density Functions (PDF) 来定义。

对应的概率离散利用连加∑ 符号,连续概率利用∫符号来描述。

学习机器学习前,你首先要掌握这些概率论基础知识

样本和统计

想象一下我们想要进行一个人体身高的测量研究,我们在大街上随机的测量了一些陌生人的身高,那么这个测量可以看做是独立的。我们将从一个人群中随机选取样本的过程称为采样。统计的作用就是对这些数据进行总结和信息的提取,例如计算这些样本的均值:

学习机器学习前,你首先要掌握这些概率论基础知识

样本的标准差是这样计算的:

学习机器学习前,你首先要掌握这些概率论基础知识

这一公式用来描述数据点与其均值的偏差。

更多的进阶学习

相关推荐