主成分分析
主成分分析法是一种特征提取的方法,它是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观察数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。
动机:降低数据的维度,尽可能保留最多的信息
方法:可以使用SVD分解。
分析:
- PCA的本质是通过投影降维,显然选择保留最大差异性的轴来投影比较合理。
- 所有奇异值的平方和与数据集的总体方差相等。
- 奇异值越大=得到的方差越多=包含的信息就越多
使用奇异值分解:
A = U D V_
其中D中前k个最大奇异值对应的V_矩阵的列构成坐标转化矩阵。
特征分解
方阵A的特征值k和特征向量m, 指A作用于向量m相当于常量k对向量m进行缩放。
性质:如果m是方阵A的特征向量,那么m的所有缩放后的向量均为A的特征向量。
基于此,通常我们只考虑单位特征向量。
实对称矩阵:
定义:方阵的转置等于它本身。
性质:实对称矩阵不同特征值对应的特征向量是正交的。
每个实对称矩阵都能分解成特征向量和特征值相乘的形式。
正定矩阵:
所有特征值都是正数的矩阵称为正定,所有特征值为非负数的矩阵称为半正定。
奇异值分解(SVD分解)
将矩阵分解为奇异向量和奇异值。
通过奇异值分解,我们可以得到一些与特征分解相同类型的信息,但奇异值分解有更广泛的应用。
每个实数矩阵都有一个奇异值分解,但不一定都有特征分解。例如,非方阵的矩阵没有特征分解。
A m * n
U m * m
D m * n
V. n * n
V_表示矩阵V的转置
奇异值分解: A = U D V_
U 和 V为正交方阵,U的列向量为左奇异向量,时AA_的特征向量,V的列向量是右奇异向量,为A_A的特征向量。
而D为对角矩阵,是但D不一定是方阵。对角线上的元素A的奇异值,A的非0奇异值是AA_特征值的平方根,也是A_A特征值的平方根。
参考链接:
https://zhuanlan.zhihu.com/p/174810167
https://baijiahao.baidu.com/s?id=1669382088633385476&wfr=spider&for=pc