其中 x 和 y 是我们试图衡量相关量相关性的数据集。和分别表示数据集 x 和 y 的平均值,但这个公式存在一些重大问题。它很复杂,很难记住,并且无法让学生了解相关系数真正衡量的是什么。在这篇推送中,我们将解释一种不同的思考方式,即相关系数是两个向量之间角度的余弦。这是从线性代数的角度来看待相关系数。
相关系数背后的想法是,我们想要一个标准来衡量两个数据集 x 和 y 的“相关程度”。但现在我们放弃数据集的想法,而是想象我们将 x 和 y 的数据放入两个向量 u 和 v 中。这将是两个指向空间的 n 维箭头(向量)。问题是:这两个向量彼此有多“相似”?正如我们将在下面看到的,答案是由它们之间的相关系数给出的。