一枚硬币和一部电话解释常见的概率分布——似然函数总结

概率分布和似然函数

似然函数作为连接观测和概率分布的连接桥梁被广泛用于贝叶斯,机器学习甚至工程问题中。

举个例子

enter image description here 我们生活中发生很多事,掷骰子,下雨,巴士到达时间。事后,具体的结果是肯定的:骰子来了3和4,今天下雨了,巴士还有3分钟才到达。但是事前,我只能讨论可能性,其中概率分布描述了我们认为的每个结果的概率。这些概率的和为1。

例如,一枚公平硬币有两个结果:正面或反面。 每一面的概率为50%。如果你明白这个,恭喜你已经掌握了伯努利分布。 639897654

函数列表

先列几个似然函数的列表: Table of Common Distributions List of probability distributions - Wiki List of Statistical Distributions 但是这些这个分布种类繁多,很多比如Muth或Lomax,我们连听都没听说过。所以我们只讨论常见的分布。

常见的分布

先给你一个关系图 distribution

伯努利和统一分布

伯努利就是两个事件的选择,一个概率是p,另一个概率是1-p。 统一分布是每个事件的概率是一样的。

二项式分布和超几何分布。

二项分布可以被认为是多次遵循伯努利分布的结果的总和。比如:投掷一枚硬币20次; 它出现多少次正面? 每次都是一个伯努利分布,这个计数是遵循二项分布的结果。或者,想象一个具有相同数量白色和黑色球的碗。 闭上眼睛,抓一个球,看它是否是黑色的,然后放回去。 重复。 最后抓了多少次黑球? 这个计数也遵循二项分布。

但是如果我们移除抓到的黑球呢?就是超几何分布了。这样成功的概率会越来越少。

泊松

比如每分钟拨打支持热线的客户数量?对于每个客户都是一个伯努利分布,但是这个客户数量是无限的,对于整体事件是一个伯努利分布。

我应该会开一个伯松分布在tracking方向的专题,详情关注一下我的微博。

几何和负二项式

再比如这个硬币 ,如果我们要验证,出现第一个正面之前,出现几次反面。这个反面的次数遵循是几何分布,所以你可以用它来计算你要创业多少次能成为马云。

如果想计算出现第n次正面前,出现几次反面你就需要负二项式分布。

指数和韦伯分布

回到电话问题上,如果我们求,要等多久才能才能接到下一次客户电话。这个看似是几何分布,因为我们可以假设每秒钟没有人打电话就是失败。失败的次数就像没有人打过电话的秒数。但是这个只能是离散的,如果我们把他推算到极限情况呢,时间无穷小,那就是指数分布。 同时注意,因为泊松分布考虑的是每次有多少事件?指数分布考虑的是事件之前有多长时间。所以他们经常一起讨论。 如果我们考虑耗损情况呢,随时间变化,打近电话的概率会增加(节目时间长?)/减少(电话老坏?),这种情况我们就把它称为韦伯分布。

正态分布,对数正态,学生t-分布和卡方分布

正态分布又名高斯分布,可以算是世界上最重要的分布,经常用在自然和社会科学来代表一个不明的随机变量。任何一个独立分布,你做多次实验,求和,他就是正态分布。这个证明过程叫做中心极限定理。 中心极限定理wiki

对数正态就是对正态取log,谁让他有个e呢。

学生t-分布用来在小样本(没有统计特性的样本中)中,在不知道方差的情况下,估算均值。随样本增加,分布接近正态分布,不过他的‘尾巴‘更粗一点。

卡方分布是基于卡方检验的分布,其实就是正态竖着的平方和分布。

伽马和β分布

基于卡方分布我们就有了伽马分布,她像是卡方和指数分布的结合,主要用于建模’直到接下来的n个事件发生的时间。很多共轭先验指的就是他。另一种常见的共轭分布就是β分布,它和这篇文章大多数分布都共轭。共轭函数对于数学分析是十分重要的,因为它是先验和后验的概率表达式统一了。