数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 2629|回复: 0

一文读懂正态分布

[复制链接]
发表于 2024-6-12 14:18 | 显示全部楼层 |阅读模式
一文读懂正态分布

原创 一只刘狮狮 一只刘狮狮 2024-05-18 17:21 广东

本文尝试浓缩书本中关于正态分布的知识,帮助读者在 20 分钟内理解主干知识及用途,并希望写得尽可能有趣。

正态分布亲和且接地气,现在,让我为你介绍它吧~


(德币 10 马克印有高斯头像,以及他的“代表作”——高斯分布曲线。)

正态分布(Normal distribution)又名高斯分布(Gaussian distribution),简单来说,它描述的就是正常分布,比如身高、体重、一些社会中的财富等分布,多数人都会集中在某个区间。尽管在高斯之前,有些数学家已经发现了这一规律,但高斯是将其更严格描述的人。

用时髦的话来讲,正态分布是一个“高性价比”的思考工具,因为它简单易学且应用广。正态分布广泛存在于自然界、社会科学、人文科学等领域,比如动物骨骼大小、考试成绩、产品质量指标、农作物产量等数据分布大多符合这一规律。在统计推断中,它是最重要的一类概率分布,也是许多统计方法的理论基础。


(正态分布的知识关系图)

01 正态分布的背景知识

平均值、方差、标准差三个部分如同土壤,会很大程度影响正态分布这棵树的生长情况。因此,在介绍正态分布前,我需要简单介绍它们(如你已掌握,可直接跳至 02 正态分布的主干知识 进行阅读~)。

由于样本量的不同,平均值、方差、标准差可以分“总体”和“样本”两类。为强化对比,在后文的介绍中,我会在它们前面加上限定词,即“总体”或“样本”。如果没有限定词,那么平均值、方差、标准差所指代的就是总体的平均值、方差、标准差。

● 平均值

平均值(平均数)是我们的小学旧识。温故知新,因为它会在新情景下返场,因此我打算简单提一下。

用简洁、严谨、优美的数学语言,一句话回顾平均值:

“平均值是一组数据中所有数据之和再除以这组数据的个数,用于表示一组数据的集中趋势。”


(平均值示例图)

在正态分布中,由于样本量不同,平均值又可以分为总体平均值(μ)和样本平均值()两类,两者的计算方法是一样的,只是符号有差异。

小贴士:希腊字母“μ”,发音为 mu ,是代表总体平均值的符号;“”这个符号念作“X bar”,用于代表样本平均值。

● 方差

方差是衡量一组数据波动大小的统计量。我们学习方差最重要的,不在于掌握繁杂的计算,而是能够根据其结果,了解所有数据的状态。

方差分为两类:总体方差样本方差。两者的基本思路一致,但最大的差别在于样本量不同,前者是整体,后者是整体中的部分。



若 x1,x2,x3,……,xn 的平均数为 μ ,则总体方差可表示为:



小贴士:希腊字母“ ∑” 的小写形式为“σ”,英译音为 Sigma ,大小写符号都念“西格玛”。 表示从 1 到 n 的多项求和。


(Excel 里也能看到它的身影~)

我们还是用上面的 1 和 10 两个数字,总体平均值 μ=5.5 的简单例子,来看公式如何使用。


(少量数据好计算,数据多的话,就让计算机/器帮忙吧~)

回到总体方差和样本方差区别的话题,这里举个简单的例子来说明。假设我们想知道中国人身高的标准差,但因人、财、物力有限,我们不可能把所有人都量一遍,因此,只能退而求其次,采取抽样策略,用样本标准差来推测整体,这时,我们就会用到样本方差。

样本方差和总体方差计算上略有区别,主要体现在分母上。不同于总体方差的分母为 n ,样本方差的分母为 n-1 。这里“-1”是为了修正样本方差对总体方差的估计偏差,这种现象被称为“贝塞尔校正”(Bessel's correction)。

这个减去的“1”,不特指任何一个数,它代表那个失去“独立客观”的维度(自由度)。

样本方差的计算公式如下:



因此,在计算样本标准差(s ,即样本方差开根号)时,其分母也是 n?1 而不是 n(即样本大小减 1 )。这里在后文标准差的部分还会提到。

小贴士:样本标准差的分母为什么为 n-1 在数学领域已被证明,是较复杂的内容,这里不做过多展开,有兴趣的读者可查阅相关资料哦~

在公式的应用过程中,你或许会觉得计算很麻烦(事实也确实如此)。好消息是,计算在方差中并不是最重要的,我们要做的,是关注总体方差(σ^2)的值,并由此了解方差想告诉我们的秘密:数据内部的状态如何。



在投资分析中,尤其是在股票投资中,方差是一个有用的统计工具,它可以帮助投资者了解投资组合的风险水平。同样的回报率,方差越小,则风险越低。

● 标准差

标准差(Standard Deviation)是方差的算术平均数的平方根,也用于反映一个数据集的离散程度。标准差实际上就是方差开根。

整体标准差用 σ 表示,样本标准差用 s 表示。两者的公式如图:



在本小节的末尾,我们来做个三者在“总体”和“样本符号系统区别上的总结。详见下表:



当我们谈论一个正态分布时,通常是在谈论一个总体的分布,而不是一个样本的分布。因此,使用 μ 来表示正态分布的均值是合适的

均值、方差、标准差的背景介绍已结束。别走开,下节更精彩,主角闪亮登场~

02 正态分布的主干知识

● 正态分布

正态分布是一种常见的连续概率分布,它在自然科学和社会科学中常用于表示未知的随机变量。若随机变量 X 服从一个数学期望为 μ 、方差为 σ^2 的正态分布,则记为 N(μ,σ^2) 。

正态分布的曲线呈钟型,因此人们又经常称之为“钟形曲线”。正态分布虽有无数种形态,但仍由 μ(平均值)σ(标准差)两个数值决定。其中,μ 决定了正态分布的位置,σ 决定了分布的幅度。理解了这一点,你就不需要单独记忆每一个正态分布图啦。

现在,让我们一起来看一些有代表性的正态分布图吧(下面的文字浓度有点高,值得多看几遍~):

当 μ=0 ,σ=1 时,这个正态分布就是标准正态分布,(见下图红线)。

以正态分布为参考标准,μ 为负则图形向左移动(见下图绿线),反之,μ 为正,则图形向右移动。

μ 不变,σ 越小,则正态分布曲线越陡峭(见下图蓝线),图像越“高瘦”,反之则越平缓(见下图黄线),图像越“矮胖”。



(正态分布图   图源:维基百科)

小贴士:不知道你是否注意到,和各行业一样,数学也有自己的“黑话”(业内术语),比如正态分布定义里的“服从”和“期望”。

数学语言中的“服从”是指“符合”、“遵从”的意思,一般指事物符合数学中的发展规律。

另外,数学术语中,“期望”或“数学期望”是一个重要的概念,特别是在概率论和统计学中。它表示随机变量的预期值或平均值。

除了上面的例子,正态分布其实还有数种形态,但它们的模型主要由 μ(平均值)σ(标准差)两个数值决定。

介绍了决定正态分布曲线的关键参数后,我们再来看看关于曲线下方覆盖面积呈现的规律。在距离平均值 ±1 的标准差(即 ±σ)范围内,集中着约全体 68.26% 的数据;距离平均值 ±2 的标准差(即 ±2σ),集中着约 95.45% 的数据;距离平均值 ±3 的标准差(即 ±3σ),包含着 99.73% 的数据。曲线下方覆盖的面积,在统计学上被称“置信区间”。


(正态分布图   图源:维基百科)

这张图是不是有点抽象?哈哈哈,让我举几个例子,让置信区间中的数字走进生活。

(1)有大约 68% 的可能性,动态范围不超过平均值 ±σ 。在一个班上,一班的平均分为 80 分,如果标准差为 5 分,我们就有 68% 的置信度说,考虑到随机性的影响,这个班的平均成绩应落在 75~85 之间,而不是之外。

(2)有大约 95% 的可能性,动态范围不超过平均值 ±2σ ,即两个 σ 的置信度是 95% 。做科学试验时,通常需要有 95% 的置信度,才能得到大家认可的结论;在产品质检中,可以通过抽样检测来估计产品的平均质量水平,并利用 95% 置信区间来评估这个估计的可靠性。

(3)如果我们进一步扩大误差范围到 ±3σ ,那么这个置信度就提高到 99.7% 。在要求极高的实验中,我们甚至会要求达到 99.7% 的置信度,甚至更高;在招聘中,面试官可以使用 3σ 原则来确定录取分数线。通过计算应聘者的平均分数和标准差,可以确定一个合理的分数线范围,从而筛选出合格的应聘者。

小贴士:总体正态分布图 vs 样本正态分布图(符号区别)



03 正态分布的标准化

在02正态分布的主干知识中,我们介绍了影响正态分布形态的土壤(平均值、方差、标准差),以及由此长出的小树(正态分布的图像)。结束前,我想跟大家介绍一个与正态分布有关的常用小工具。

● 标准化与查表求概率

虽然通过观察图也能把握大致情况,但计算数值后会更便于理解,也方便向他人展示。好消息是,Z 转换(标准化)可以实现统一尺度。

对于数据集中的每一个数值X,可使用以下公式进行标准化:



在这个公式中,Z 是转换后的标准值,X 是原始数据点的值,μ 是原始数据的平均值,σ 是原始数据的标准差。

别被公式吓到,放进日常的简单应用场景就豁然开朗了。

小 A 参加了小学模拟考试,数学得了 73 分,英语得了 76 分。数学平均分是 60 分,英语平均分是 68 分。那么,小A的数学成绩和英文成绩,哪一个相对来说比较好呢?(得分均按照正态分布)实际上,仅这些条件是无法进行判断的,还需要能够表示全体离散程度的标准差。现在,我们假定数学是标准差为 8 分的正态分布,英语则是标准差为 6 分的正态分布。



用 Z 变换的公式可得:

数学 :  (得分-平均分)÷ 标准差 =(73-60)÷8 = 1.625

英语 :  (得分-平均分)÷ 标准差 =(76-68)÷ 6 = 1.333

也就是说,当标准差为 1 时,小 A 的数学、英语成绩标准差分别是 1.625 、1.333 。不同学科的成绩转化为标准得分后,变得可比较了。

另外,用“标准得分=1”进行了标准化,“平均值”会变成什么样呢?本来,平均分根据科目的不同而不同,但以标准得分进行分布的时候,平均值为 0 。

因此,在对成绩进行“标准化”时,分布会变为平均值 = 0 、标准差 = 1 的标准正态分布。需注意的是,标准化改变的只是图的位置,比如向左或向右平移,但并不会改变“高矮胖瘦”。

完成 z 变换,我们就通过可以利用 z 值表找到对应的概率值啦。这里会用到“标准正态分布表”。

这个表是前人整理好的数据,用起来也很方便。首先,我们要看最左手列,去查阅 Z 至小数点后 1 位数,之后,我们再查最上一行,看 Z 的第二位小数,左右交叉得到的数,就是我们需要找的数。



放到小 A 的例子中,数学的标准差为 1.625 、英语的标准差为 1.333 。我们来试试查这个表。以数学为例,先看最左列,Z 至小数点后 1 位数为 1.6 ,接着,再看最上行,Z 的第 2 位小数我取 0.02 ,交叉得到的数就是 0.9474(蓝色方框中的数)。英语的查阅方式同理,取值为 0.9082 。



查表后,就是分析数据了。数学取值为 0.9474 ,英语为 0.9082 ,即数学约处于 94.74% 的水平,英语处于 90.82% 的水平。如果参加全国数学、英语模拟考试的人有 1 万人,小 A 数学大概处于 526 名的位置((1 - 0.9474)× 10000 = 526 名),英语处于 918 名的位置。用图表示更清晰,这里以数学为例:



04 结语

好啦,恭喜看到这的你,在 20 分钟左右的时间,你已经了解了正态分布最核心的知识!最后,请让我为你做个简要的总结。

在这篇文章中,我们先一起回顾了平均值、方差和基本差的背景知识,并在此基础上了解了正态分布的形状、特征以及如何使用。最后,我介绍了一个与正态分布有关的重要工具“标准正态分布表”,并以小A考试成绩分析的例子,来理解这款工具是如何使用的。

别走开,在下一篇的文章中,我将跟你分享更多更有趣的正态分布的例子和故事。

延伸阅读:样本量足够大,二项分布会近似服从正态分布

二项分布描述的是在一系列独立重复的伯努利试验中,成功的次数所服从的概率分布。其中,每次试验只有两个可能的结果,成功或失败,且成功的概率是恒定的。在样本量足够大的情况下,二项分布会近似服从正态分布。

致谢:

鸣谢被我抓来审此稿的 L 女士、W 女士、Z 同学。感谢你们建设性的意见和宝贵的时间。祝你们工作学习都顺利,周末愉快!

参考资料

1. 吴军. 吴军数学通识讲义:原来数学可以这样用[M].第一版. 新星出版社, 2021-4.

2. [日] 本丸谅/著 罗梦迪/译. 新手小白学统计[M]. 第一版. 北京: 北京时代华文书局, 2023 年 5 月.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-2 23:30 , Processed in 0.085561 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表