数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1521|回复: 0

线性回归背后的数学原理

[复制链接]
发表于 2024-5-21 01:24 | 显示全部楼层 |阅读模式
线性回归背后的数学原理

原创 围城里的猫 MathSpark 2024-05-02 08:11 陕西



线性回归是迄今为止 21 世纪最有影响力的统计方法之一。现下每个参与机器学习或数据科学的人都必须对线性回归有深刻的理解。这几乎是默认的规则。在这期推送中我们想要公正地来和大家聊一聊线性回归,但为了做到这一点,我们需要追溯到 1800 年代和 1900 年代,以了解这些想法背后的动机。了解线性回归如何成为今天人们看到它的样子。

对误差的恐惧



在深入探讨之前,我们需要简要介绍一下统计理论中的误差概念。通常我们将误差视为错误,但在统计学中,误差表示的只是估计值与实际真实值之间的差异。对此维基和牛津是这样解释的: 在统计学中,“误差”指的是计算得出的值与正确值之间的差异。

处理误差一直是一个问题。自 18 世纪以来,天文学家对合并观测结果一直有深深的恐惧。这种恐惧并不是基于在相似情况下的观测,因为这些可以通过计算平均值轻松解决,而是基于在不同情况下(非标准化观测)进行的观测。合并这些观测以得出估计的“真值”面临着严重的怀疑。如何确定这个真值取决于观察者或分析者。

西奥多·M·波特曾描述了这个问题:“几十年来,天文学家一直在讨论如何将大量观测数据归纳为单一的值或曲线,并根据一些关于单个误差发生的假设来估计这个最终结果的准确性。”

这简单地意味着天文学家在寻找一种方法来标准化不同范围的观测(例如 1 和 1000),并且即使将其标准化为单一范围或值之后,也在寻找一种适当的方法来确定从这个范围获得的估计值准确性。

如果你不知道什么是标准化,它只是将值缩放到相似的范围。(例如 1 和 1000 乘以 1/2000 是接近的范围)采用平均值并不是一个选项,因为平均值离大多数个别观测值都太远了。大多数人也担心,每次观测中的误差会相互增加而不是抵消,从而大大偏离所谓的“真值”。

这些观测值如何被误差污染的原因可能各不相同,这使得问题更为相关。可能是仪器故障、人为错误、计算错误、大气条件等。需要一个规则。一个能够考虑所有观测及其变化的规则。

最小二乘法的发明



一个名叫勒让德的人提出了一个公式,可以解释所有观察结果及其变化——最小二乘法。

勒让德简介

他出生于图卢兹,在他很小的时候全家搬到了巴黎。他来自一个富裕的家庭,在巴黎马扎林学院接受了高质量的数学和物理教育。

这种方法被广泛接受,用于各个领域。在当时,没有哪种统计方法像这样产生了巨大的影响。这开启了人们对误差的接受。勒让德提出,围绕平均值的平方偏差之和可以提供对所有观测误差方差的一个宏观估计。

请记住:误差仅仅是估计值和实际真值之间的差异。我们对偏差进行平方是因为我们不关心方向。我们只关心总和,因此平方可以消除任何负数,使我们能够得到一个宏观估计。我们进行平方以便更容易识别和惩罚异常值。例如,如果我们有一个数据集 [10,46,100,2345,832],计算其平均值后得到 666.6 。要计算平方偏差之和,我们可以进行如下计算:

(10–666.6)^2 + (46–666.6)^2 + (100–666.6)^2 + (2345–666.6)^2 + (832–666.6)^2

= 431123.56 + 385144.36 + 321035.56 + 2817026.56 + 27357.16

= 3981687.2 = 总偏差

这是数据集与平均值偏离的总量。正如我们所看到的,主要由于平方的原因,这个总偏差相当大。这有助于我们了解我们的数据集相互之间的差异有多大。同时,通过对差异进行平方,我们对异常值赋予了更多的重量,这可以帮助我们快速识别出对我们的预测或模型有重大影响的变量。在我们的例子中,2817026.56 或 2345 是一个异常值。当然我们也可以尝可视化这些结论:



假设我们有所有这些数据点。我们尝试绘制一条最佳拟合线来预测新值:



我们的误差是实际数据点(红点)和直线之间的差异:



一旦我们获得每个数据点的差异,我们就将每个差异平方并加总,以得到平方偏差之和。有了这个总偏差,我们现在可以尝试找到最佳拟合线(假设目前还不是),最小二乘法的目标是将总偏差最小化到尽可能低。

这种方法的突破之处在于,“误差”现在可以被合并,更重要的是,可以通过一种将预测性能提升的方法来最小化,这种方法广受欢迎,并且到了 19 世纪初,它已经在天文学、大地测量学领域定期使用,并最终扩展到包括心理学在内的社会科学领域。

最小二乘法使用的一个前提是它假设你的数据点遵循正态分布。例如,数据集 {20, 18, 23, 22, 15, 24, 20, 29, 16, 19} ,而不是偏态分布,例如 {25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100} 。所谓正态分布曲线,是指数据集中的大部分数据点围绕平均值或某种中心趋势(例如中位数)分布,随着距离中心越来越远,数据点越来越少。例如,人口、年龄、体重、身高、房价等一般都遵循正态分布。



回归线的虚假发明



一个名叫布拉瓦伊·奥古斯特的人首次发现了回归线,但他并不知道自己做到了这一点。他是一位物理学家和天文学教授。他的大部分研究都致力于晶体学。他最著名的成就是 1846 年发表的一篇论文,题为“Analyse mathématique sur les probabilités des erreurs de situation d’un point”,翻译为“点的位置错误概率的数学分析”。

在这篇文章中他提出了最终被称为“回归线”的概念。他是通过研究频率曲面的各种椭圆(椭圆形的圆)区域如何随着直接观察的数量的不同而变化来实现这一点的。



通过这种方式,他找到了回归线,但并没有意识到这一点,因此无法“跨越这一步”。主要是因为他没有这个目标。当时,消除观察中的错误是最高优先级,因此,布拉瓦伊的目标正是做到这一点。他的动机是展示从观察中获得的错误是独立的,没有关联。

但这使得布拉瓦伊对相关性的概念视而不见。他能够得到线条(即“OM”),这与常见的回归线相似。但这不是通过观察 x 和 y 并确定它们的关联得出的,而是基于 x 和 y 是某些独立且直接观察到的量的函数这一事实。

但是,既然他设法推导出了回归线,他不应该因此而受到赞誉吗?我的意思是,他是最早研究两个或更多误差存在的人之一,当时只有少数人做过这种研究。其次,他产生了相关系数的乘积项,并发现了 30 年后被称为回归线的数学方程。第三,他从相关的正常曲面的角度讨论了这两个问题,并确定了给定不同数量和伴随错误时会存在的椭圆的不同形状。



好吧,让我们谈谈真正的创始人——高尔顿。

回归的真正发现



弗朗西斯·高尔顿观察到遗传特征的平均值不仅偏离了中父母(父母双方平均身高)的平均值,而且趋向于整个种群的平均值。假设你有高个子的父母,你的身高并不会直接由你父母的身高平均值决定,而更可能接近整个种群的平均身高。因此,如果你有非常高的父母,你很可能身材较矮;如果你有非常矮的父母,你很可能会更高。

主要论点是,遗传特征中的偏差可以通过它们向平均值回归来解释。极端的偏差并未产生同样极端的偏差,而通常是较小程度的偏差回归向中心趋势,即平均值。

高尔顿对观察有着浓厚的兴趣,有些人甚至称之为“痴迷”。简而言之,高尔顿测量了他能测量的一切,从风向到指纹,到后来他的实验基础——身高和体态等身体属性。正如斯蒂格勒(1986 年)所评论的,高尔顿极受凯特勒的影响,他几乎在凯特勒的平均偏差理论(即“误差理论”)中找到了乐趣。高尔顿甚至使用误差曲线的概念预示了现代假设检验的基础,即确定观察到的值是来自单一种群还是多个种群。

他试图图形化地展示人类身体属性的分布,希望某种方式显示这些属性是遗传的。这种思想困扰了高尔顿的思维,促使他进行了一个计算回归系数的实验。回归系数是两个变量之间的相关系数。这个系数决定了向平均值回归的速率,并可帮助进行预测。他收集了 928 对父母及其子女的数据,制作了一个相关表。这样将表中父母的身高与子女的身高进行了对比。



通过测量数百人的身高,他能够量化向平均值回归并估计这一效应的大小,高尔顿写道:“后代的平均回归是它们各自中父母偏差的一个恒定分数”。这意味着孩子与其父母在某些特征上的差异与其父母与种群中典型人群的偏差成比例。对于身高,高尔顿估计这个系数大约为 2/3:个体的身高将大约是父母与种群平均偏差的三分之二。

通过这样做,高尔顿确认了他的统计回归发明。不是通过数学方式,而是通过实证数据和观察。一个令人震惊的事实是,高尔顿并不是一个数学家。他在数学上没有深厚的根基,甚至在他完成实验之前,他将数据发送给一位名叫迪克森的数学家,以数学方式重现他经验上得到的结果。令他感到惊讶的是,结果是相同的。

虽然奥古斯特·布拉瓦伊接触过统计回归和相关性,但是高尔顿使其成为法则。高尔顿还指出,由于回归法则,他非常反对当前的比例重新缩放做法,因为这忽略了回归的影响。如果一个大腿骨比平均大腿骨大 5% ,我们不应该推断一个人比平均人高 5% 。这种推断会忽略回归的效果,并倾向于过度估计,即使是分布曲线极端的情况也是如此。

或许在统计学历史上没有比当前更好的例子来展示统计技术并非仅仅源于数学操纵,而往往是由社会政治原因或其他等效目标引发的。好了今天这期就到这儿吧,我们下期见。



围城里的猫

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-3 00:40 , Processed in 0.099783 second(s), 17 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表