数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 23|回复: 0

为什么最小二乘法的解等价于最大似然估计?

[复制链接]
发表于 2025-9-15 00:36 | 显示全部楼层 |阅读模式
为什么最小二乘法的解等价于最大似然估计?

原创  cos 大壮  深夜努力写算法  2025 年 09 月08 日 15:15  北京

你好,我是 cos 大壮~

今天聊一个非常重要的话题:为什么最小二乘法的解等价于最大似然估计?

首先,咱们先把线性回归的基础内容做一个回顾~

线性回归的意思很直接:我们想用一个直线(或者高维里的超平面)去拟合一堆点,让这条直线尽量代表点的趋势。

比如,你有一堆同学的学习时间(x)和考试成绩(y)的数据。你直觉觉得“学得越多,分数越高”,但关系不会那么完美,有人学了很多却考砸了,有人学得少但考试超常发挥。

那问题来了:怎么用一条直线去描述这种关系?







最小二乘法(OLS)的登场




为什么 OLS 解等价于最大似然估计(MLE)

这是很多人学习回归时最疑惑的地方:

OLS 是最小误差平方和,MLE 是最大似然,听起来完全不是一回事,为什么结果一模一样?



打个比方:OLS 就是“把误差压得尽量小”。

MLE 就是“在假设误差是正态的情况下,挑一组参数让整个数据的概率最大”。

为什么会碰巧一样?

因为正态分布的密度函数里有一个指数项,指数里面正好是平方误差。

你要最大化指数,就是要最小化平方和。

所以它们俩走的路不同,但最终指向的是同一条直线。

一个案例



有同学会问了,如果误差不是正态分布呢?

如果误差是拉普拉斯分布(尖峰厚尾),那最大似然估计就会变成最小化绝对值误差(L1),而不是平方误差。

这也是为什么“最小二乘”不一定永远好用,它假设了误差是高斯的,而实际数据可能存在噪声异常点。

为什么要区分 OLS 和 MLE ?

OLS 是一种“几何意义上的拟合”,MLE 是一种“概率意义上的估计”。

OLS 给了我们一个数学上最优的解,MLE 给了我们一个统计学上有推理基础的解。

正是因为这两者等价,所以我们常常可以利用概率论来分析回归参数的分布、置信区间、显著性检验等。

好了,今天的内容先这样,如果对你有一点点启发,记得点赞或者转发~

每天干货在这里等你,刷一刷,总有收获!~

深夜努力写算法

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-9-16 04:23 , Processed in 0.085752 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表