数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 1366|回复: 0

相关系数 R^2 的另一个解释

[复制链接]
发表于 2024-7-31 17:55 | 显示全部楼层 |阅读模式
相关系数 R^2 的另一个解释

原创 围城里的猫 MathSpark 2024 年 06 月 08 日 08:02 陕西

当我们的学生在学习统计学时,一个重要的内容就是相关系数“r”,或者有些其他学科,比方说数据科学也叫做“R 平方”,它用于衡量变量之间关系的强度。大多数教科书中给出的公式如下:



其中 x 和 y 是我们试图衡量相关量相关性的数据集。和分别表示数据集 x 和 y 的平均值,但这个公式存在一些重大问题。它很复杂,很难记住,并且无法让学生了解相关系数真正衡量的是什么。在这篇推送中,我们将解释一种不同的思考方式,即相关系数是两个向量之间角度的余弦。这是从线性代数的角度来看待相关系数。

相关系数背后的想法是,我们想要一个标准来衡量两个数据集 x 和 y 的“相关程度”。但现在我们放弃数据集的想法,而是想象我们将 x 和 y 的数据放入两个向量 u 和 v 中。这将是两个指向空间的 n 维箭头(向量)。问题是:这两个向量彼此有多“相似”?正如我们将在下面看到的,答案是由它们之间的相关系数给出的。



下图说明了测量两个向量(v1 和 v2)的“相似度”的思路。图中,两个向量之间额角度为 θ 。一个相当好的衡量“相似度”的方法是使用 θ 的余弦值。



想想余弦在这里的作用。如果 v1 和 v2 指向大致相同的方向,则 θ 的余弦将约为 1 。如果它们指向相反的方向,则为 -1 。如果它们垂直(或者大多数数学家可能会说是“正交”),则为 0 。这样,θ 的余弦非常符合我们的直觉,即两个向量彼此相似或“相关”。那么图中 θ 的余弦是多少?根据直角三角形的几何学知识,角的余弦是邻边长度与斜边长度的比值。

在图中,我们通过将向量 v1 向下投影到 v2 上来形成一个直角三角形。这给了我们一个新的向量 p 。θ 的余弦由以下公式给出:





事实证明,两个向量之间的夹角余弦非常符合我们对相关性的直觉。毫不奇怪,这两个概念最终在数学上是同一个东西——与通常的教科书公式相比,是对“R 平方”的更简单、更有力的解释。



围城里的猫

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-2 22:34 , Processed in 0.079272 second(s), 16 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表