进行主成分分析后如何正确的对主成分进行解释？

wufaxian · 发表于 2022-2-23 21:22

本帖最后由 wufaxian 于 2022-2-23 21:27 编辑

假设若干样本有m维变量：x1,x2,x3,x4……xm，每一维变量都有清晰明了的意义(以经济意义为例，这些变量可能是：收入、成本、毛利、净利润，总资产……)，经过pca处理以后在保留99%累计方差的标准下，生成了n个主成分，n小于m。如果我们要从n中选出方差最大的前三个主成分k1，k2，k3，构成一个三维空间。那么所有样本将分布在这三维空间中，并且在每个样本在每个主成分(x轴，y轴，z轴)上都有自己的刻度。此时我们要对这个三维散点图进行分析，无疑首先要了解每个主成分的意义(比如它主要代表收入？主要代表成本？主要代表总之产？)。这就需要我们将主成分与原来的m维变量建立某种联系。目前已知有两种方式建立联系。

1、每个主成分都是原来的m维变量的线性组合。线性组合，就会有权重。举个极端的例子：比如K1=10000*x1+1*x2+1*x3……+1*xm，那么就可以认为k1主要代表x1的意义！

2、我们可以计算原变量和主成分的相关系数，找出相关系数最大的原变量。举个极端的例子\(\varrho\)(x9,k1)=1，那么就认为k1主要代表x9的意义！

以上两种路径，从数学角度来说都是可计算。但是如此解释合理么？PCA建立过程中只追求两个目标：1、在第一主成分方向样本方差最大，在第二主成分方向方差次大，…… 2、主成分之间协方差为零，线性无关。上述两种路径只是在主成分都找到以后，在主成分结果和原变量之间“人为”的建立的某种联系。理论上我们可以使用各种数学工具找出x1和k3之间的某种联系。但是这些联系都可以解释k3的意义么？

现实当中出现如下情况，按照路径1的方法，K1 主要代表x1的意义，但是按照路径2，K1主要代表x9的意义。这时候你要怎么决定k1的真实意义呢？所以现实当中真正应用pca进行数据分析时，究竟如何确定每个主成分的真实意义？

		自动登录	找回密码
密码			注册

进行主成分分析后如何正确的对主成分进行解释？

浏览过的版块