|

楼主 |
发表于 2023-11-12 19:44
|
显示全部楼层
7. 正态魅影
Everyone believes in it: experimentalists believing that it is a mathematical theorem, mathematicians believing that it is an empirical fact.
— Henri Poincaré
如果说,充斥着偶然性的世界是一个纷乱的世界,那么,正态分布为这个纷乱的世界建立了一定的秩序,使得偶然性现象在数量上被计算和预测成为可能。杰恩斯在《概率论沉思录》中提出了两个问题
1. 为什么正态分布被如此广泛的使用?
2. 为什么正态分布在实践使用中非常的成功?
杰恩斯指出,正态分布在实践中成功的被广泛应用,主要是因为正态分布在数学方面的具有多种稳定性质,这些性质包括:
● 两个正态分布密度的乘积还是正态分布
● 两个正态分布密度的卷积还是正态分布,也就是两个独立正态分布的和还是正态分布
● 正态分布 N(0,σ^2) 的傅立叶变换正规化为密度分布后还是正态分布
● 中心极限定理保证了多个随机变量的求和效应将导致正态分布
● 正态分布和其它具有相同均值、方差的概率分布相比,具有最大熵
前三个性质说明了正态分布一旦形成, 就容易保持该形态的稳定,兰登对于正态分布的推导也表明了,正态分布可以吞噬较小的干扰而继续保持形态稳定。后两个性质则说明,其它的概率分布在各种的操作之下容易越来越靠近正态分布。正态分布具有最大熵的性质,所以任何一个对指定概率分布的操作,如果该操作保持方差的大小,却减少已知的知识,则该操作不可避免的增加概率分布的信息熵,这将导致概率分布向正态分布靠近。
正由于正态分布多种的稳定性质,使得它像一个黑洞一样处于一个中心的位置,其它的概率分布形式在各种操作之下都逐渐向正态分布靠拢,杰恩斯把它描述为概率分布中重力现象(gravitating phenomenon)。
我们在实践中为何总是选择使用正态分布呢,正态分布在自然界中的频繁出现只是原因之一,杰恩斯认为还有一个重要的原因是正态分布的最大熵性质。在很多时候我们其实没有任何的知识知道数据的真实分布是什么,但是一个分布的均值和方差往往是相对稳定的。因此我们能从数据中获取到的比较好的知识就是均值和方差,除此之外没有其它更加有用的信息量。因此按照最大熵的原理,我们应该在给定的知识的限制下,选择熵最大的概率分布,而这就恰好是正态分布。即便数据的真实分布不是正态分布,由于我们对真实分布一无所知,如果数据不能有效提供除了均值和方差之外的更多的知识,按照最大熵的原理,正态分布就是这时候最佳的选择。
8. 大道至简,大美天成
算术平均, 极其简单而朴素的一个式子,被人们使用了千百年,在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。正态分布的发现与应用的最初历史,就是数学家们孜孜不倦的从概率论和统计学角度对算术平均不断深入研究的历史。中心极限定理在 1773 年棣莫弗的偶然邂逅的时候,它只是一粒普通的沙子,两百多年来吸引了众多的数学家,这个浑金璞玉的定理不断的被概率学家们精雕细琢,逐渐的发展成为现代概率论的璀璨明珠。而在统计学的误差分析之中,高斯窥视了造物主对算术平均的厚爱,也发现了正态分布的美丽身影。殊途同归,那是偶然中的必然。一沙一世界,一花一天国, 算术平均或许只是一粒沙子,正态分布或许只是一朵花,它们却包含了一个广阔而美丽的世界,几百年来以无穷的魅力吸引着科学家和数学家们。
高尔顿他对正态分布非常的推崇与赞美, 1886 年他在人类学研究所的就职演讲中说过一段著名的话:“我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多,无政府状态越显现,它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时,那么总是有一个始料不及的美妙规律潜伏在其中。”
概率学家卡克在他的自述传记《机遇之谜》(Enigmas of chance: An autobiography)中描述他与正态分布的渊源:“我接触到正态分布之后马上被他深深的吸引,我感到难以相信,这个来自经验直方图和赌博游戏的规律,居然会成为我们日常生活数学的一部分。”另一位概率学家 Michel Loéve(1907-1979)说:“如果我们要抽取列维的概率中心思想,那我们可以这样说,自从 1919 年以后,列维研究的主题曲就是正态分布,他一而再再而三的以她为出发点,并且坚决的又回到她…… 他是带着随机时钟沿着随机过程的样本路径作旅行的人。”美国国家标准局的顾问 W. J. Youden 用如下一段排列为正态曲线形状的文字给予正态分布极高的评价,意思是说:误差的正态分布规律在人类的经验中具有 “鹤立鸡群” 的地位,它在物理、社会科学、医学、农业、工程等诸多领域都充当了研究的指南,在实验和观测数据的解读中是不可或缺的工具。
正态误差态分布律
几乎所有的人都或多或少的接触数学,虽然各自的目的不同,对数学的感觉也不同。工程师、科学家们使用数学是因为他简洁而实用,数学家们研究数学是因为它的美丽动人。像正态分布这样,既吸引着无数的工程师、科学家,在实践中被如此广泛的应用,又令众多的数学家为之魂牵梦绕的数学存在,在数学的世界里也并不多见。我在读研究生的时候,经常逛北大未名 BBS 的数学板,有一个叫 ukim 的著名 ID 在精华区里面留下了一个介绍数学家八卦的系列《Heroes in My Heart》,写得非常的精彩,这些故事在喜欢数学的人群中也流传广泛。最后一个八卦是关于菲尔兹奖得主法国数学家托姆(René Thom)的,它曾经令无数人感动,我也借用来作为我对正态分布的八卦的结语:
在一次采访当中,作为数学家的托姆同两位古人类学家讨论问题。谈到远古的人们为什么要保存火种时,一个人类学家说,因为保存火种可以取暖御寒;另外一个人类学家说,因为保存火种可以烧出鲜美的肉食。而托姆说,因为夜幕来临之际,火光摇曳妩媚,灿烂多姿,是最美最美的……
图片14
9. 推荐阅读
All knowledge is, in the final analysis, history.
All sciences are, in the abstract, mathematics.
All methods of acquiring knowledge are, essentially, through statistics.
在终极的分析中,一切知识都是历史;
在抽象的意义下,一切科学都是数学;
在理性的基础上,所有的判断都是统计学。
— C. R. Rao
本人并非统计学专业人士,只是凭个人兴趣做一点知识的传播。对统计学历史知识的介绍,专业性和系统性都不是我的目的,我更在乎的是趣味性,因为没有趣味就不会有传播。如果读完这段历史会让你觉得正态分布更加亲切,不再那么遥不可及,那我的目的达到了。如果正态分布是一滴水,我愿大家都能看到它折射出的七彩虹。
本文所使用的大多是二手资料,有些历史细节并没有经过严格的考证,对于历史资料一定程度上按照个人喜好做了取舍,本文主要基于如下的资料写成,对于历史细节感兴趣的,推荐阅读。
陈希孺, 数理统计学简史,湖南教育出版社,2000
蔡聰明,誤差論與最小平方法,数学传播 21(3):3-13,1994
吴江霞,正态分布进入统计学的历史演化,2008
E.T. Jaynes, Probability Theory: The Logic of Science,Cambridge University Press,2003
Saul Stahl, The Evolution of the Normal Distribution, Mathematics Magazine, 1996
Kiseon Kim, Georgy Shevlyakov, Why Gaussianity, IEEE Signal Processing Magazine, 2008
Stephen M. Stigler, The History of Statistics: The Measurement of Uncertainty before, Belknap Press of Harvard University Press, 1990
L. Le Cam, The Central Limit Theorem Around 1935, Statistical Science 1(1):78-91, 1986
Hans Fischer, A History of the Central Limit Theorem: From Classical to Modern Probability Theory, Springer, 2010
数学经纬网 2023-11-08 22:00 发表于北京 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|