数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 685|回复: 0

正态分布(Normal Distribution)公式为什么长这样?

[复制链接]
发表于 2024-10-7 11:14 | 显示全部楼层 |阅读模式
正态分布(Normal Distribution)公式为什么长这样?

原创 Long Luo 好奇的程序员 2024 年 07 月 02 日 21:16 广东

相信大家或多或少都听过六西格玛(6 Sigma)[1] 这个词,六西格玛是指生产的产品中,99.99966% 的产品是没有质量问题的,即只有 3.4ppm 的不良率。

假如一家工厂生产某型号零件,零件的长度要求是 100mm ,允许的标准差是 0.1mm 。根据 6σ 原则,零件规格允许的偏差范围是:100±6×0.1 = 100±0.6 。

这意味着,零件长度超过 100.6mm 或低于 99.4mm 的概率是非常低的,约为 0.00034% 。如果工厂每天生产 100 万个零件,只允许有 3.4 个零件会超出 6σ 的范围,几乎可以忽略不计。因此,生产过程是极其稳定和可靠的,达到了六西格玛水平。

那么 6σ 中 3.4ppm 的不良率来自哪里呢?

学过中学数学都知道,在正态分布(Normal Distribution)[2] 中,68.27% 的数据位于平均值的一个标准差内,95.45% 位于两个标准差内,99.73% 位于三个标准差内,这也是著名的 68-95-99.7 Rule [3] ,如下图 1 所示:


图 1. 68-95-99.7 Rule

什么是正态分布?

数据可以用不同的方式“分布”,比如数据可以向左散布的多一些,也可以向右散布的多一些,或者分布的乱七八糟,如下图 2 - 图 4 所示,


图 2. 数据偏向左散布


图 3. 数据偏向右散布


图 4. 数据随机分布

但数据经常会集中在一个中心值的附近,而不向左或右偏斜,像一个钟形,如下图 5 所示。


图 5. 数据正态分布

正态分布,又称高斯分布(Gaussian Distribution),是一种重要的概率分布,是由数学王子高斯 [4] 在 19 世纪初提出的。有很多日常现象都符合这种分布,如人的身高、考试成绩等。正因为它几乎无处不在,所以叫 Normal Distribution 。德国曾经发行的一款 10 马克的纸币上就印着高斯和正态分布曲线,如下图 6 所示。


图 6. 高斯和正态分布曲线




图 7. 不同均值和方差的正态分布曲线

正态分布的公式看起来非常复杂,里面有 π、e、μ、σ ,组合起来非常复杂。在学习时,课本介绍正态分布时就直接给出这个公式,却从来不说明这个概率密度函数是怎么推导来的,来龙去脉是什么。最近看了 3Blue1Brown 关于 概率论的系列视频,我知道了正态分布曲线公式为什么是这样,我们将在下一章节中推导出这个公式。

正态分布公式怎么来的?

有很多种方法都可以推导出正态分布公式,这里将介绍一种既优雅又直观的推导方式,由天文学家赫歇尔(John Herschel)[5] 在 1850 年给出的。

3Blue1Brown 的视频 Why π is in the normal distribution(beyond integral tricks)中详细介绍了这种方式。不过视频中有一些不够严谨的地方,下面会先介绍视频中的推导方法,然后再介绍严谨的数学分析法。

考虑向一个镖盘投掷飞镖,过镖盘中心作 x 轴和 y 轴。每次投掷飞镖都会受到随机因素而偏离目标,故每次飞镖在镖盘的落点 (x,y) 是 2 维随机变量。


图 8. 飞镖镖盘

假设满足以下 2 个条件:

1. 落点的 x 轴和 y 轴坐标是相互独立的;

2. 落点的概率密度函数仅与其到原点的距离有关,即分布在空间上具有旋转对称性。

3Blue1Brown Herschel 推导方法




图 9. 落点概率密度函数




图 10. 落点概率密度函数只与半径有关




图 11. 落点在 x 轴 (r,0) 处



更严谨的数学分析法




图 12. 落点概率密度函数



正态分布公式的几何意义

通过 Herschel 给出的优雅直观方法,仅仅依靠那 2 个假设条件,我们居然最终求出了正态分布的公式。有没有感觉到数学的美感?

最初看到 3Blue1Brown 的这个视频,感觉非常美,正态分布那么复杂的公式居然有这么优雅直观的方式自然而然的出来了!

分析正态分布公式,公式中的 π 意味着空间上的对称性,即点分布距离中心是对称的。而 e 的出现意味着取了时间上的极限,而这和中心极限定理(Central limit theorem)[9] 有关,我会在下一篇文章详细解释,敬请期待!

参考文献

[1]: 六西格玛 https://en.wikipedia.org/wiki/Six_Sigma

[2]: 正态分布 Normal distribution https://en.wikipedia.org/wiki/Normal_distribution

[3]: 68-95-99.7 法则 https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule

[4]: 高斯 Gauss https://en.wikipedia.org/wiki/Carl_Friedrich_Gauss

[5]: 天文学家赫歇尔 John Herschel https://en.wikipedia.org/wiki/John_Herschel

[6]: 函数方程 https://en.wikipedia.org/wiki/Functional_equation

[7]: 指数函数 Exponential function https://en.wikipedia.org/wiki/Exponential_function

[8]: 高斯积分 Gaussian integral https://en.wikipedia.org/wiki/Gaussian_integral

[9]: 中心极限定理 Central limit theorem https://en.wikipedia.org/wiki/Central_limit_theorem

Long Luo

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-1 05:20 , Processed in 0.071829 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表