算法与数学之美 2019-12-10
当你抛起一枚硬币,你不知道它会是正面还是反面,但你确切的知道正面与反面的概率都是50%。
概率论的神奇之处在于,它居然能从不确定性中找到确定性。
本文不教科书,只是阐述我的观点和思考,如有谬误,欢迎讨论或指正。
一个事情有N种发生的可能性,我们不能确信哪种会发生,是因为我们不能控制结果的发生,影响结果的许多因素不在我们的支配范围之内,这些因素影响结果的机理或者我们不知道,或者太复杂以至于超出了我们大脑或电脑的运算能力。比如:我们不确定掷硬币得到正面或反面,是因为我们的能力不足以用一些物理方程来求解这个结果。再比如:你不能断定你期末能考88分,因为出题、阅卷的不是你。
对于未发生之事,我们无法掌握其所有参数或无法计算。对于已经发生之事,事情都已经发生了,结果已定,也会因为掌握的信息不全而产生所谓概率。
即过去发生的事情虽然事实上是确定的,但因为我们的无知,它成了随机的。
我们在某个地方挖出了一块瓷器的碎片,它可能是孔子的夜壶,可能是秦始皇的餐具,也可能是隔壁老王的破茶壶从他家到垃圾站又被埋在了这个地方。
因此:概率在实质上就是无知,而不是说事物本身是随机的。
这一点很重要,不要误以为概率应该是客观事实。如果你有上帝视角的话,那么一切都是注定,任何事的概率都是100%,也就没有所谓概率之说了。
所以概率论是建立在人们有限的认知中的,不是真正的客观事实。也就是说当孔子一看,这貌似是自己的夜壶啊,他认为这是夜壶的概率为70%,秦始皇一看那块碎片,朕心中只装的下江山,哪来的餐具,在他看来的餐具的概率是1/3,然而,老王的却早已看穿一切,那块碎片割过他的手所以他记得格外清楚,茶壶概率为100%。每个人所知道的信息决定了他所认知的概率。
就像狼人杀,这里假设游戏是7个人+上帝,1号和2号玩家是狼人,发完牌的时候就已经注定谁是狼人了。对于上帝和1、2号而言,没有概率可言,或者说1、2号是狼人的概率是100%。而对于平民而言,他除了自己,他无法找出理由认为谁是狼人,只好用古典概率的等可能假设,认为其他每个人是狼人的概率都是1/6,随着游戏的进行,预言家掌握更多的信息,他修正了自己的概率,而平民也根据自己掌握的信息修正自己概率,于是大家对于谁是狼人这件事都有了不同的概率。
注意到上面这个故事中,不难发现,假设碎片只有夜壶,餐具,茶壶这三种可能,即一开始概率应该是各1/3。从孔子到老王,他们都用各自掌握的信息修正了关于这个碎片是什么的概率。这就引出了先验概率和后验概率的概念。
事情还没有发生,要求这件事情发生的可能性的大小,是先验概率.
事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.
Similarly, the prior probability of a random event or an uncertain proposition is the unconditional probability that is assigned before any relevant evidence is taken into account.
In Bayesian statistics, the posterior probability of a random event or an uncertain proposition is the conditional probability that is assigned after the relevant evidence or background is taken into account. Similarly, the posterior probability distribution is the probability distribution of an unknown quantity, treated as a random variable, conditional on the evidence obtained from an experiment or survey. “Posterior”, in this context, means after taking into account the relevant evidence related to the particular case being examined.
要注意的是这是在贝叶斯统计中。不是公理化的概率定义。
在此墙裂推荐陈希孺院士的《概率论与数理统计》,这是大专栏 概率论迷思get="_blank" rel="external noopener noreferrer">豆瓣、知乎的书评和推荐。陈老这本书之所以受到如此簇拥,在于它授人以渔而非授人以鱼,你读一读就是知道。
举一个的简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求:
⑴ 第一次摸到红球(记作A)的概率;
⑵ 第二次摸到红球(记作B)的概率;
⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
解:
⑴ P(A)=3/5,还没还有摸球,就问概率,这就是验前概率;
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是后验概率,第一次和第二次摸球这件事都已经发生了,但是我们不知道,比如第一次我们是闭着眼摸完又放回去了,便产生了概率之说。第一问事情未发生(或者说发生了,但是相对于未发生得情况,我们并没有掌握任何更多的信息)我们认为概率是3/5,第三问,我们知道了第二次摸到红球这件事,或者说证据,以此来修正这个概率,就像推理小说一样。
关于先验概率和后验概率,推荐阅读:
数理统计中的两个学派——频率学派和Bayes学派(1990年的期刊,能找到也是不容易)
病人:我听说这个手术成功概率为1%,我是不是该放弃治疗?
医生:你放心,我敢保证这次手术100%会成功。
病人:真的?为什么?
医生:因为我已经失败了99次了。
这是很多人都会犯的“常识”错误,也是经常让人迷惑的地方。可能在这个笑话里,大家没什么深刻感受,那换个例子,比如:A已经抛了100次硬币,每次都是正面,那么下一次反面的几率是不是更大?即使是统计学专业的学生也经常迷糊(比如统计学渣的我),我就一直纳闷,按照大数定律(知乎的解释),如果抛硬币的次数足够多,他就应该是正反各1/2的分布啊,A都抛了100次正面了,下一次就该是反面几率更大了啊。可是每次抛硬币应该是相互独立的,也就是说之前抛无数次也不该影响下一次的概率,即1/2。这个问题的争论,请参考先验概率与后验概率的区别(老迷惑了)。
我比较认可比较的解释是其评论中的一段话,当然,前提是你得清楚频率( 千万别把频率直接等同于概率),概率的古典定义和统计定义以及公理化定义。
关于概率论,一直有许多搞不懂的问题,迷迷糊糊混过四年。在学习HMM和CRF高楼大厦时,发现地基已碎,一边百度基础概念一边学,更是痛苦万分。在搜寻问题时产生更多的问题,终于在重新读了概率论前几章后,算是豁然开朗了很多,所以打算重读概率论,夯实基础,我应该会开个重读概率论的分类,有很多事要做,就并行处理吧,不知道会不会半途而废,也不知道半途而废的概率是多少(当然,我可以凭经验先给出一个主观先验概率,在以后的过程中再慢慢修正得到后验概率,直到概率为0或1),但是有些疑惑终究会推着我去探寻。