|
本帖最后由 wufaxian 于 2022-2-23 21:27 编辑
假设若干样本有m维变量:x1,x2,x3,x4……xm,每一维变量都有清晰明了的意义(以经济意义为例,这些变量可能是:收入、成本、毛利、净利润,总资产……),经过pca处理以后在保留99%累计方差的标准下,生成了n个主成分,n小于m。如果我们要从n中选出方差最大的前三个主成分k1,k2,k3,构成一个三维空间。那么所有样本将分布在这三维空间中,并且在每个样本在每个主成分(x轴,y轴,z轴)上都有自己的刻度。此时我们要对这个三维散点图进行分析,无疑首先要了解每个主成分的意义(比如它主要代表收入? 主要代表成本?主要代表总之产?)。这就需要我们将主成分与原来的m维变量建立某种联系。目前已知有两种方式建立联系。
1、每个主成分都是原来的m维变量的线性组合。线性组合,就会有权重。举个极端的例子:比如K1=10000*x1+1*x2+1*x3……+1*xm,那么就可以认为k1主要代表x1的意义!
2、我们可以计算原变量和主成分的相关系数 ,找出相关系数最大的原变量。举个极端的例子\(\varrho\)(x9,k1)=1,那么就认为k1主要代表x9的意义!
以上两种路径,从数学角度来说都是可计算。但是如此解释合理么?PCA建立过程中只追求两个目标:1、在第一主成分方向样本方差最大,在第二主成分方向方差次大,…… 2、主成分之间协方差为零,线性无关。上述两种路径只是在主成分都找到以后,在主成分结果和原变量之间“人为”的建立的某种联系。理论上我们可以使用各种数学工具找出x1和k3之间的某种联系。但是这些联系都可以解释k3的意义么?
现实当中出现如下情况,按照路径1的方法,K1 主要代表x1的意义,但是按照路径2,K1主要代表x9的意义。这时候你要怎么决定k1的真实意义呢?所以现实当中真正应用pca进行数据分析时,究竟如何确定每个主成分的真实意义? |
|