第十四讲 主成分分析
主成分分析
- 主成分分析是一种降维算法,能够将多个指标转换为少数几个主成分,这些主成分是*原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。
- 当研究问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主层次分析方法对数据进行简化
- 处理多重共线性
降维的作用
- 将高纬度的数据(指标太多)保留下最重要的一些特征,去除噪音和不重要的特征,从而实现提升数据处理速度的目的
- 在实际的生产和应用中,降维也成为了应用最广泛的数据预处理方法
- 优点
- 降低算法的计算开销
- 去除噪音
- 使得数据集更易使用
- 使得结果容易理解
例子
思想
假设有n个样本,p个评价指标,则可构成大小为n*p的样本矩阵x:
需要找到综合指标
系数l的确定原则
PCA的计算步骤
假设有n个样本,p个评价指标,则可构成大小为n*p的样本矩阵x
- 我们首先对其进行标准化处理 去除量纲 + 归一化有助于比较
- 我们首先对其进行标准化处理 去除量纲 + 归一化有助于比较