数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 26|回复: 0

为什么需要协方差?

[复制链接]
发表于 2025-12-27 00:56 | 显示全部楼层 |阅读模式
为什么需要协方差?

原创  尼采之超人  思考理解这个世界  2025 年 12 月 25 日 08:56  广东

标准差用于描述整个群体中个体的差异有多大,这个我们在前面讲过。除了标准差还有一个常见的指标叫协方差,这个概念又用来干什么的呢?



协方差的本质就是衡量两个变量共同变化的情况,也就是两个变量的关联性。如果其中一个变量变大时,另一个变量也倾向于变大,那我们就说它们正相关。如果其中一个变量变大时另一个变量变小,那么就称为负相关。如果它们的变化没有规律,就称为弱相关。

协方差的定义为:Cov(X,Y)=E[(X-E[X])×(Y-E[Y])] 。

为什么要这样定义呢?对于 X 和 Y 两个变量,E[X] 表示 X 变量的的期望值(即 X 的平均值),E[Y] 表示 Y 变量的期望值(即 Y 的平均值)。(X-E[X])×(Y-E[Y]) 表示 X 和 Y 的每个样本偏移值相乘,从整体样本上看,两个变量的偏移值的乘积能够表示两个变量变化的方向,即是同向变化还是反向变化。

通过下图就能很容易感受这种关系,可以看到 X 和 Y 两个变量的关系变化。当协方差为正时,整体从左往右上升趋势,表示正相关,因为 X 增大 Y 也增大。此外整个带状越细相关性就越大。当协方差为负时则反过来是负相关的。而接近 0 时则表示两个变量不太相关,很明显因为 X 增大 Y 基本不变。



根据一个具体的例子看看计算过程。假设有 5 个人,身高和体重如表所示。直观上看身高和体重是正相关的,即身高越高体重则越重,而协方差正是用来衡量这种关系趋势。



第一步先计算 E[X] 和 E[Y] 。

E[X]=(1.60+1.70+1.75+1.80+1.65)/5=8.5/5=1.70

E[Y]=(50+60+70+80+55)/5=315/5=63

第二步计算每个样本的偏离值,也就是分别计算 (X-E[X]) 和 (Y-E[Y]) 。



第三步计算偏离值的乘积,也就是 (X-E[X])×(Y-E[Y]) 。可以发现相乘后结果都为正,表示他们整体趋势是正相关。注意允许少数样本偏离乘积为负值,它们对整体趋势影响不大。



第四步计算所有偏离乘积的期望,也就是平均值。

Cov(X,Y)=(1.30+0.00+0.35+1.70+0.40)/5=3.75/5=0.75

最终结果为 0.75 ,该值为正数,表示身高和体重整体上呈正相关。

标准差用来衡量偏离中心的程度,而协方差则用来衡量两个变量的关联性。核心思想是先计算每个变量自己偏离平均值的程度,然后再看两个偏离是否同步。

思考理解这个世界

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-12-28 20:42 , Processed in 0.090566 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表