|
随机性中的秩序:6 种常见数据概率分布
原创 雪鹅 DataCafe 2024 年 08 月 11 日 14:01 上海
概率分布可以理解为是一个描述可能结果的“地图”,告诉你某个结果发生的可能性有多大,帮你看清楚在一堆可能性中哪些结果更常见,哪些结果比较少见。
举个例子:你平时点的外卖,通常会在30分钟左右送到,偶尔也会更快或更慢。假设我们画出你历史上点过的外卖的送达时间概率分布图。图中显示:大多数的送达时间集中在平均值附近(约30分钟),极少数时候还会远早于或远超预期时间。(比如极端天气、或是小哥在途中见义勇为…)
图中展示的就是一个典型的正态分布。概率分布告诉我们,在一系列结果的可能性中,哪些结果更常见,哪些结果更少见。
这就是概率分布的概念——展示某种事件出现的可能性大小。
理解概率分布可以帮助我们在各种随机事件中找到规律,在不确定性中做出更好的预估和决策。比如在统计分析时,根据数据分布选择适当的假设检验方法、在金融和保险市场通过了解数据的分布来评估和管理风险等等。
接下来我们一起看看几种日常生活中最常见的概率分布。
01 正态分布 (Normal Distribution)
这种对称的钟形曲线应该很眼熟了,它的特点是中间最高,两边逐渐降低。这就是我们身边最为常见的正态分布(也称高斯分布)。
正态分布代表了一种普遍的规律:大多数事物都集中在一个平均值附近,越偏离这个中心的极端事件越相对稀少。比如人群的身高、体重、智商等特征往往接近正态分布。
英国著名的统计学家高尔顿设计了钉板实验来形象地展示正态分布:
想象一个木板上有很多小钉子,从顶部放下的小球会随机向左或向右移动,最终落在底部的容器里。随着小球数量增多,大多数小球会落在中间的容器里,少数会落到两边,形成一个“钟形曲线”,即正态分布。
这表明,虽然每个小球的路径是随机的,但结果并不完全无序。因为左右移动的概率相等,大多数小球最终会集中在中间位置。正态分布展示了这种现象—— 大多数结果集中在平均值附近,极端情况较少出现。
这大概也是自然的平衡状态的一种反映:万事万物趋于中庸。
为了更好地理解各种概率分布,我们经常使用图表来直观地展示概率密度函数(PDF ,通常用来展示连续数据的分布)或概率质量函数(PMF ,通常展示离散数据的分布)来观察不同分布的特性,比如数据集中在什么位置以及数据的分散程度。
正态分布的数学表达
正态分布的概率密度函数(PDF)由以下公式给出:
其中,μ 是平均值(mean), σ 是标准差(standard deviation)。
曲线的形状完全由均值 μ 和标准差 σ 控制。(以下展示了不同均值和方差的分布曲线)
68-95-99.7 规则
在正态分布中:
约 68% 的数据落在平均值加减一个标准差(μ±σ)范围内;
约 95% 的数据落在平均值加减两个标准差(μ±2σ)范围内;
约 99.7% 的数据落在平均值加减三个标准差(μ±3σ)范围内。
在生产流程中,68-95-99.7 规则经常用来判断流程稳定性。
如果某个部件的目标值偏离了平均值超过三个标准差,说明生产过程出了问题。举个例子,假设我们在生产线上罐装饮料,每罐饮料的目标容量是 500ml ,实际生产过程中存在一定微小误差。假设这些容量的误差服从正态分布:均值为 500ml ,标准差为 5ml 。
也就是说,当我们随机抽取一罐饮料,有 68% 的概率这罐饮料的容量会在 500±5ml(495ml 到 505ml)之间。
通过采样和分析,如果大部分产品的容量都落在 95% 范围内(490ml 到 510ml),说明生产过程是稳定和可控的。反之如果有较多产品超出这个范围,就需要重新校准设备或调整流程。
中心极限定理(Central Limit Theorem)
中心极限定理是一条重要的统计学原则:当我们从总体中随机抽取多个独立且相同下的样本,这些样本平均值的分布会趋近于正态分布。
也就是说,不管原始数据的分布如何,随着样本数量的积累,最终都会趋向于一种有序和可预测性(听起来是不是有点像“无论过程多么混乱,最后总会归于平静”的人生哲学)。
比如赌彩公司的盈利机制就利用了中心极限定理,保证即使彩票中奖分布是离散的或不规则的,累加起来的总奖金分布却是平滑的正态分布,让彩票公司能够在面对小概率事件(如头奖爆发),整体上依然能够维持盈利。
02 伯努利分布(Bernoulli Distribution)
伯努利分布(Bernoulli Distribution)描述只有两个可能结果的随机试验。
抛硬币就是一个典型的伯努利试验,它的结果服从伯努利分布:每次抛掷硬币时,结果只有两种可能——正面或反面。伯努利分布也是所有二项分布的基础。
伯努利分布的数学表达:
其中 p 是成功的概率(0 ≤p ≤ 1)。
伯努利分布在许多实际问题中都有应用,尤其是在那些可以简化为“成功-失败”的二元结果场景中:比如在生产线上检测产品质量,每个产品要么合格(成功)要么不合格(失败),每次检测就是一次伯努利试验。
03 二项分布(Binomial Distribution)
如前面所说,每次抛硬币都是独立的伯努利实验。那么二项分布就可以理解为反复抛硬币,可以看作是多次伯努利试验的结果。
二项分布(Binomial Distribution)是描述 n 次独立同分布的伯努利试验中成功次数的分布。
二项分布的概率质量函数(PMF)可以用来计算在 n 次试验中成功 k 次的概率,数学表达式为:
二项分布的参数包括实验次数 n 和每次实验成功的概率 p 。
举个例子,我们可以用伯努利分布描述用户是否点击广告的情况。某业务投放了一次广告给某个用户,用户的点击行为可以看作是一个伯努利试验(要么点击,要么不点击),该用户的点击行为服从伯努利分布,那么在 n 次广告的投放中(或是 n 个用户的点击事件),这些点击次数服从二项分布。
又比如某工厂每天生产 100 个产品,每个产品有 5% 的概率是次品,二项分布可以描述每天出现次品的数量分布;篮球运动员在一次训练中进行 20 次投篮,每次投中的概率为 0.8 ,二项分布可以描述他投中次数的分布情况。
04 泊松分布(Poisson Distribution)
假设你注意到每天早高峰去咖啡店的顾客数量是随机的,有时候会突然来一大群人,有时候则没人光顾。
你开始好奇,在 8 点到 9 点这一小时内有 25 位顾客到达的概率是多少?这时泊松分布就能很好地回答这个问题。
泊松分布用于描述“在一定时间内发生了多少次事件”,特别适用于分析那些发生时间随机且独立的事件,比如每小时有多少辆车通过某个路口。
泊松分布在现实中有广泛的应用,尤其是那些涉及随机事件发生次数的场景,比如:
电话客服中心的呼叫量:如果某个客服中心平均每小时接到 5 个电话,那么在某个小时内接到 k 个电话的概率可以用泊松分布来估算;
交通事故的发生次数:可以用泊松分布来预测下个月某路段可能发生的事故次数;
罕见事件的发生:假设一家医院每天平均接收 3 个急诊病例,那么也可以用泊松分布来计算某天接收到 2 个或 4 个急诊病例的概率。
泊松分布的数学表达
泊松分布的概率质量函数(PMF)定义如下:
其中 X 是随机变量,表示事件发生的次数。λ 是单位时间内事件发生的平均次数(即平均到达率)。
随着 λ 值的增加,事件发生的次数的分布会向右移动,且分布的峰值也逐渐变宽。这意味着事件发生的次数增多且有更大的分散性。例如,当 λ=9 时,事件发生次数从 0 到 10 都有较大的概率,并且分布曲线的尾部比较长。
泊松分布广泛应用在资源配置优化方面的问题。比如呼叫中心在不同时间段接到的电话数量可能会有很大波动。管理者可以根据泊松分布的概率预测,判断在高峰期可能出现的电话需求来合理安排接线员的数量。
05 指数分布(ExponentialDistribution)
在统计学中,指数分布是一种重要的概率分布,用于描述时间间隔或事件间隔的概率。例如,假设你在某个公交车站等待公交车,公交车到达的时间间隔可以用指数分布来描述。指数分布广泛应用在生物学、工程学、物理学和金融学等领域。
回忆前面讲的泊松分布——
泊松分布描述的是在一个固定时间段内某个事件发生的次数。它关注的是事件的频率,指数分布描述的是两个事件之间的时间间隔。它关注的是事件的间隔时间。
简单来说,泊松分布是用来解决“在给定时间内,事件发生了多少次”的问题。比如在 1 周内接到多少次诈骗电话?在 1 年内,某个路段上发生了多少次交通事故?
指数分布则用来解决“两个连续事件之间的时间间隔有多长”的问题。比如两个电话呼叫之间的时间间隔是多少?两次交通事故之间的时间间隔有多长?
指数分布的数学表达
概率密度函数(PDF)
其中参数 λ 代表着平均发生率。
指数分布经常用于运筹优化。比如通过使用排队论中的指数分布模型,银行可以分析客户到达的情况以及平均等待时长,了解系统负载情况从而调整服务资源。
06 帕累托分布(Pareto Distribution)
举个例子,我日常 80% 的时间都在穿衣柜中 20% 的那几件衣服…这其实就是我们熟知的帕累托原则!(28 原则)
28 原则是指在很多现象中,少数重要的因素(约 20%)往往贡献了大多数的结果(约 80%)。
这个概念最先由意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)提出。他发现,80% 的财富掌握在 20% 的人手中,引出了帕累托分布。
帕累托分布为 28 原则提供了数学基础和理论支持。
帕累托分布还具有长尾效应,也就是说虽然大多数的事件或结果集中在“头部”(比如热门商品或常见事件),但还有一个很长的“尾部”,包含了大量的低频事件或小众商品。这些小众的部分虽然单个来看不太显眼,但总覆盖面也相当可观。
帕累托分布的数学表达
概率密度函数(PDF):
其中:x 是随机变量,表示某一资源的大小(如财富、收入);Xm 是最小可能值(通常大于 0);α 是形状参数,决定分布的形状。
帕累托分布的期望值和方差取决于形状参数 α 的值。
帕累托分布帮助我们在分析和预测不均衡分布现象时更加准确,从而优化资源分配和业务决策。
以上就是 6 个数据分析中常见的概率分布。
数学家皮埃尔-西蒙·拉普拉斯说过:“概率论是常识的延伸。”看似随机的现象背后都有着一定的模式。概率分布的作用正是体现现实世界的运行规律,让我们能更理性地面对不确定性。
Reference
[1] Towards Data Science. “Waiting Line Models.” Towards Data Science, 2024, https://towardsdatascience.com/waiting-line-models-d65ac918b26c.
[2] Padilla, José. “Dice, Dragons and Getting Closer to Normal Distribution: The CentralLimit Theorem.” Minitab Blog, Minitab, 27 June 2020. https://blog.minitab.com/dice-dr ... normal-distribution
[3] Durrett, Richard.Probability: Theory and Examples. Cambridge University Press, 2019.
[4] Weisstein, Eric W. “Normal Distribution.” MathWorld—A Wolfram Web Resource.https://mathworld.wolfram.com/NormalDistribution.html
[5] Wikipedia Contributors. “Binomial Distribution.” Wikipedia, The Free Encyclopedia. Available at: https://en.wikipedia.org/wiki/Binomial_distribution
DataCafe |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|