|
如何通俗理解泊松分布与泊松过程
原创 金朝老师来上课 数据分析学习与实践 2025 年 02 月 26 日
泊松分布和泊松过程的解释
大多数学校教授统计学的方式令人遗憾,主要在于它的枯燥乏味。老师们花费大量时间钻研导数、方程式和定理,而当学生最终希望将所学应用于实际问题时,往往只能面对一些乏味、缺乏创意的示例,比如掷骰子。然而,如果我们跳过复杂的推导过程(毕竟您可能永远用不上),而是专注于如何利用这些概念来解决有趣的现实问题,那么统计学就会变得引人入胜,富有意义。
泊松分布(Poisson Distribution)和泊松过程(Poisson Process)是统计学和概率论中密切相关但又不同的概念。理解它们的关系与区别对于学习概率模型和随机过程至关重要。
核心关系:泊松分布是描述泊松过程在固定时间或空间间隔内事件发生次数的概率分布。 简单来说,泊松过程是“过程”,而泊松分布是描述这个过程在某个“瞬间”(或者说固定间隔)状态的概率分布。
在本文中,我们将介绍两个重要的概率概念:泊松过程和泊松分布。在仅强调相关理论之后,我们将通过一个真实的示例进行展示,将方程式和图形的思想置于上下文中。
1. 泊松过程
泊松过程是一系列离散事件的模型,其中:
1. 平均时间:事件之间的间隔时间是已知的,但是事件发生的确切时间是随机的。
2. 事件的发生与之前的事件无关:事件之间的等待时间是无记忆的。例如,假设我们有一个网站,我们的网站平均每 60 天出现一次故障,但已经发生一个故障不会影响下一个故障发生的可能性。
我们所知道的是两次故障之间的平均时间。这是一个泊松过程,如下所示:
泊松过程
重要的一点是我们知道事件之间的平均时间,但是它们是随机间隔的。我们可能会遇到不相关的故障,但是由于过程的随机性,事件之间也可能会间隔数年,虽然概率很小。
泊松过程符合以下标准:
1. 事件彼此独立:一个事件的发生不影响另一事件发生的可能性。
2. 平均速率(每个时间段的事件)是恒定的。
3. 两个事件不能同时发生。
最后一点事件不能同时发生的意味着我们可以将泊松过程的每个子间隔都视为伯努利试验,即成功或失败。对于我们的网站,整个时间间隔可能为 600 天,但是每个子间隔(一天)都会使我们的网站出现故障或正常运行。
泊松过程的常见示例是客户呼叫中心、访问网站的访客、原子的放射性衰变、到达太空望远镜的光子以及股价的变动。泊松过程通常与时间相关,但不一定如此。关于股价,我们可能知道每天的平均移动量(每次事件),同时我们也可以对一英亩的树木数量(每个区域事件)进行泊松过程。
最经常讨论的案例是泊松过程实例,例如公交车到站。但是,这并不是真正的过程,因为到站之间并不是相互独立的。即使对于未按时运行的公交系统,一辆公交车是否晚会影响下一趟公交车的到达时间。
2. 泊松分布
泊松过程是我们用来描述随机发生的事件的模型,其本身并不那么有用。我们需要泊松分布来做一些有趣的事情,例如,查找某个时间段内多个事件发生的概率或查找直到下一个事件等待一段时间的概率。
泊松分布概率质量函数给出了在给定时间段的长度和每个时间的平均事件的情况下,在一个时间段内观察 k 个事件的概率:
● P(在时间段内发生 k 个事件):表示在特定时间段内观察到恰好 k 个事件发生的概率。
● k :你感兴趣的事件数量。这必须是一个非负整数(0, 1, 2, 3, ...)。
● 事件数/时间 = λ : 单位时间内的平均事件发生率(也称为速率参数)。
● 时间段: 你正在考虑的时间间隔的长度。
● e:欧拉数(约等于 2.71828),自然对数的底数。
● k!(k 的阶乘):从 1 到 k 所有正整数的乘积。例如,5! = 5 × 4 × 3 × 2 × 1 = 120 。根据定义,0! = 1 。
● λ(lambda): 它表示单位时间内的事件发生率。在提供的图像中,λ = 事件数/时间。
这有点复杂,(事件数/时间)×时间段 通常简化为单个参数 λ ,速率参数 λ 。通过这种替换,泊松分布概率函数现在具有一个参数:
其中有单位时间段转化为预期时间段的隐藏假设。可以将 λ 视为间隔中预期的事件数。我们将切换为时间间隔,请记住,我们不一定要使用单位时间段,我们可以根据泊松过程积分面积。我喜欢写出 λ 来提醒自己,速率参数是每个时间的平均事件数和时间段长度的函数。
当我们更改速率参数 λ 时,我们更改了在一个时间间隔内看到不同事件数量的概率。下图是泊松分布的概率质量函数,显示了在具有不同速率参数的时间间隔内发生多个事件的概率。
泊松概率分布
每条曲线的间隔中最可能发生的事件数是速率参数 λ 情况下。这是有道理的,因为速率参数是间隔中预期的事件数,因此,当它是整数时,速率参数将是概率最大的事件数。
当它不是整数时,最高概率的事件数将是与速率参数最接近的整数,因为泊松分布只定义为离散的事件数。泊松分布的离散性也是这是一个概率质量函数而不是密度函数的原因。速率参数也是分布的平均数和方差,它们不需要是整数。
我们可以用泊松分布的质量函数来求出在一个泊松过程产生的区间内观察到若干事件的概率。质量函数方程的另一个用途--我们将在后面看到——是找到事件之间等待一段时间的概率。
3. 实例
对于我们要用泊松分布解决的问题,我们可以继续用网站故障,但我提出更宏大的建议。在我的童年,我的父亲经常会带我到院子里观察流星雨。我们不是太空爱好者,但看着来自外太空的物体在天空中燃烧起来,就足以让我们到外面去,尽管流星雨似乎总是发生在最冷的月份。
看到的流星数量可以被建模为泊松分布,因为流星是独立的,每小时的平均流星数量是恒定的,而且--这是一个近似值--流星不会同时发生。为了描述泊松分布的特点,我们所需要的是速率参数,即 (事件的数量/间隔)×间隔长度 。根据我的记忆,我们被告知平均每小时有 5 颗流星,或者每 12 分钟有一颗。由于小孩子的耐心有限,尤其是在寒冷的夜晚,我们在外面呆的时间从来没有超过 60 分钟,所以我们就用这个时间段来计算。把这两者放在一起,我们就得到了:
“预期 5 颗流星”到底是什么意思?
好吧,根据父亲最保守考虑,这意味着我们在 1 小时内会看到 3 个流星,不能再多了。当时,我没有数据科学技能,并且相信他的判断。现在我已经年纪大了,对权威人士也持怀疑态度,现在该对他的陈述进行检验了。我们可以使用泊松分布找到在一小时的观测中恰好看到 3 个流星的概率:
下图显示了一个小时内流星数的概率质量函数,平均流星之间的时间为 12 分钟(这与一个小时内预期流星数为 5 相同)
泊松概率分布
这就是“ 5 个预期事件”的含义!流星最可能的数目是 5 ,即分布的速率参数。由于数字的怪异,4 和 5 的概率相同,为 18% 。与任何分布一样,有一个最可能的值,但也有很多种其他可能的值。例如,我们可以出去看到 0 个流星,或者一小时内可以看到 10 个以上。为了找到这些事件的总概率,我们使用相同的方程式,但是,这次是计算离散概率的总和。
我们已经计算出看到 3 个流星的机会约为 14% 。1 小时内看到 3 个或更少的流星的几率是 27% ,这意味着多于 3 个的流星的几率是 73% 。同样,超过 5 个流星的概率为 38.4% ,而我们可以期望在 61.6% 的观测到 1 小时内看到 5 个或更少的流星。另外虽然很小,但有 1.4% 的机会在 1 小时内观测 10 个以上的流星!
为了可视化这些可能的情况,我们可以通过记录在 10,000 小时内每小时看到的流星数来进行实验。结果显示在下面的直方图中:
模拟泊松概率分布
这显然是一种模拟,观察可能的结果会进一步证明这是一种分布,并且预期结果并不总是会发生。在几个幸运的夜晚,尽管一个小时通常会看到 4 或 5 个流星,但我们在一小时内目睹过 10 个或更多的流星(小概率)。
4. 理解实验速率参数
速率参数 λ 是定义泊松分布所需的唯一数字。但是,由于它是两个部分(事件/间隔)与 间隔长度 的乘积,因此有两种更改方法:我们可以增加或减少 (事件/间隔),也可以增加或减少 间隔长度 。
首先,让我们通过增加或减少每小时流星的数量来更改速率参数,以查看分布如何受到影响。对于此图,我们将时间段保持恒定为 60 分钟(1小时)。
流星泊松概率分布
在每种情况下,1 小时中最可能出现的流星数是预期的流星数,即泊松分布的速率参数。例如,在每小时 12 个流星(MPH)的情况下,我们的速率参数为 12 ,并且有 11% 的机会在 1 小时内精确观测 12 个流星。如果我们的速率参数增加,我们应该期望每小时看到更多的流星。
另一个选择是增加或减少间隔长度。下面是同样的图,但这次我们保持每小时的流星数为 5 颗不变,并改变我们观测的时间长度。
流星泊松概率分布 2
毫不奇怪,我们在外面呆的时间越长,就会看到更多的流星!期望我们待更长的时间看到更多的流星也就不足为奇了!
5. 等待的时间
泊松过程中一个引人入胜的部分涉及弄清楚我们要等到下一个事件才等待多长时间(有时称为到达间隔时间)。考虑一下情况:流星平均每 12 分钟出现一次。如果我们是随机到达的,那么我们期望等待多久才能看到下一颗流星?我父亲总是(乐观地)声称我们只需要等待 6 分钟第一颗流星就符合我们的直觉。但是,如果自己问我们刚才学到了什么,那就是我们的直觉并不擅长在概率上。
我将不进行推导(它来自概率质量函数方程式),但是我们可以期望在事件之间等待的时间是一个衰减的指数。随着时间的增加,连续事件之间等待给定时间量的概率呈指数下降。以下等式显示了等待时间超过指定时间的概率。
P(T>t) = e^(-λt)
在我们的示例中,我们每 12 分钟有 1 个事件,如果插入数字,我们有 60.65% 的机会等待> 6 分钟。我父亲的猜想真是太多了!为了说明另一种情况,我们可以期待大约 8.2% 的时间等待 30 分钟以上。(我们需要注意,这是在每个连续的事件对之间。事件之间的等待时间是无记忆的,因此,两个事件之间的时间对任何其他事件之间的时间都没有影响。这种无记忆性也称为 Markov 属性。
下图可以帮助我们直观地观察等待时间的指数衰减:
指数衰减
等待超过 0 分钟的机会为 100% ,等待超过 80 分钟的机会为 0% 。同样,由于这是分布图,因此取值可能的到达时间范围很广。
相反,我们可以使用以下等式找到等待时间小于或等于时间的概率:
我们可以等待 6 分钟或更短的时间有 39.4% 的概率看到流星。我们还可以找到等待一段时间的概率:等待 5 分钟至 30 分钟才能看到下一颗流星的概率为 57.72% 。
为了可视化等待时间的分布,我们可以再次运行模拟实验。我们模拟观看 100,000 分钟,平均速度为 1 流星/ 12 分钟。然后,我们找到看到的每个流星之间的等待时间,并绘制分布图。
等待时间模拟分布
最可能的等待时间是 1 分钟,但这不是平均等待时间。让我们回到最初的问题:如果我们随机到达,我们平均要等多久才能看到第一颗流星?
为了回答平均等待时间问题,我们将进行 10,000 次单独的试用,每次观看天空 100,000 分钟。下图显示了这些试验中流星之间平均等待时间的分布:
平均到达时间分布
10,000 个样本的平均值为 12.003 分钟。即使我们到达的时间是随机的,我们可以期待的等待第一颗流星的平均时间就是两次出现之间的平均时间。一开始,这可能很难理解:如果事件平均每 12 分钟发生一次,那么为什么我们必须等待整个 12 分钟才能看到一个事件?答案是这是平均等待时间,考虑了所有可能的情况。
如果流星正好来到每隔 12 分钟,那么我们就必须在平均时间等待,看看第一个是 6 分钟。但是,由于这是指数分布,因此有时我们会出现并且必须等待一个小时,而等待少于 12 分钟的次数超过了很多次。这称为 "等待时间悖论",值得一读。
作为最终的可视化,让我们对 1 小时的观察进行随机模拟:
随机模拟
好吧,这次我们得到的正是我们所期望的。5 颗流星。我们不得不为第一颗流星等待了 15 分钟,但随后有一段很美的流星。至少在这种情况下,值得走出家门去观察美丽的天空!。
6. 关于泊松分布和二项分布的注释
二项分布用于对我们可以从概率为 p 的 n 次试验中期望的成功次数的概率进行建模。泊松分布是二项分布的特例,因为 n 达到无穷大,而预期的成功次数保持固定。如果 n 大而 p 小,则将泊松分布用作二项式的近似值。
与统计中的许多想法一样,“大”和“小”取决于解释。经验法则是,如果 n>20 并且 np<10 ,则泊松分布是二项式的体面近似。因此,即使 n = 50 次,即使对于 100 次试验,硬币翻转也应建模为二项式。呼叫中心在 120 分钟内每 30 分钟获得 1 个呼叫的呼叫中心可以建模为泊松分布,np = 4 。一个重要的区别是,对于一组固定的试验(域是离散的),发生了二项式,而在理论上无数次试验(连续域)。这只是一个近似值;记住,所有模型都是错误的,但是有些有用!
7. 关于流星/陨石/类陨石/小行星的注意事项
流星是您在天空中看到的光斑,是由称为流星体的碎片在大气中燃烧引起的。流星可以来自小行星,彗星,或者是一块行星并且通常在直径毫米,但可以高达一公里。如果流星体在穿越大气层中幸存下来并撞击地球,则称其为陨石。小行星是小行星带中绕太阳公转的大块岩石。破裂的小行星碎片变成流星体。你知道的越多!
8. 结论
总而言之,泊松分布给出了由泊松过程产生的时间间隔内许多事件的概率。泊松分布由速率参数 λ 定义,该参数是间隔中的预期事件数(事件/间隔 × 间隔长度 )和事件的最高概率数。我们还可以使用泊松分布来找到事件之间的等待时间。即使我们随机时间到达,平均等待时间也始终是事件之间的平均时间。
下次您发现自己对统计失去兴趣时,找到相关的方程式并将其应用于一个有趣的问题。您可以学习这些材料,并对统计数据如何帮助我们了解世界感到赞赏。首先,请保持好奇:世界上有许多惊人的现象,我们可以使用数据科学来探索它们。
金朝老师来上课 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|