数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 4027|回复: 0

进行主成分分析后如何正确的对主成分进行解释?

[复制链接]
发表于 2022-2-23 21:22 | 显示全部楼层 |阅读模式
本帖最后由 wufaxian 于 2022-2-23 21:27 编辑

假设若干样本有m维变量:x1,x2,x3,x4……xm,每一维变量都有清晰明了的意义(以经济意义为例,这些变量可能是:收入、成本、毛利、净利润,总资产……),经过pca处理以后在保留99%累计方差的标准下,生成了n个主成分,n小于m。如果我们要从n中选出方差最大的前三个主成分k1,k2,k3,构成一个三维空间。那么所有样本将分布在这三维空间中,并且在每个样本在每个主成分(x轴,y轴,z轴)上都有自己的刻度。此时我们要对这个三维散点图进行分析,无疑首先要了解每个主成分的意义(比如它主要代表收入? 主要代表成本?主要代表总之产?)。这就需要我们将主成分与原来的m维变量建立某种联系。目前已知有两种方式建立联系。

1、每个主成分都是原来的m维变量的线性组合。线性组合,就会有权重。举个极端的例子:比如K1=10000*x1+1*x2+1*x3……+1*xm,那么就可以认为k1主要代表x1的意义

2、我们可以计算原变量和主成分的相关系数 ,找出相关系数最大的原变量。举个极端的例子\(\varrho\)(x9,k1)=1,那么就认为k1主要代表x9的意义


以上两种路径,从数学角度来说都是可计算。但是如此解释合理么?PCA建立过程中只追求两个目标:1、在第一主成分方向样本方差最大,在第二主成分方向方差次大,…… 2、主成分之间协方差为零,线性无关。上述两种路径只是在主成分都找到以后,在主成分结果和原变量之间“人为”的建立的某种联系。理论上我们可以使用各种数学工具找出x1和k3之间的某种联系。但是这些联系都可以解释k3的意义么?

现实当中出现如下情况,按照路径1的方法,K1 主要代表x1的意义,但是按照路径2,K1主要代表x9的意义。这时候你要怎么决定k1的真实意义呢?所以现实当中真正应用pca进行数据分析时,究竟如何确定每个主成分的真实意义?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-7-5 06:59 , Processed in 0.082956 second(s), 15 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表