【转】主成分分析(PCA)

原文网址：https://blog.csdn.net/sunshine_in_moon/article/details/51513880.转载主要方便随时可以查看，如有版权要求请及时联系。

相信大家对PCA并不陌生，但是PCA的本质你是否了解呢？今天就给大家简单讲讲，也是自己对PCA的一个巩固。博客中使用的图片来自七月算法的程博士的PPT，在此感谢程博士课上的耐心讲解。

1、特征值个特征向量

我相信大家对于 $Ax = \lambda x$ 这个式子非常熟悉，但是你真正的理解这个式子了吗？特征向量和特征值到底有什么意义呢？说实话，在听程博士的课之前我一直迷惑，不过现在懂了。

首先，我们要明确一个矩阵和一个向量相乘有什么意义？从图中我们可以看出一个矩阵和一个向量相乘的意义在于对该向量做个旋转或伸缩变换。从图中我们又发现一个矩阵和该矩阵的非特征向量相乘是对该向量的旋转变换；一个矩阵和该矩阵的特征向量相乘是对该向量的伸缩变换。那一个实数和一个向量相乘有什么意义呢？这个我们很清楚是对一个向量的伸缩变换。

发现了没？一个矩阵和一个向量相乘与一个实数和一个向量相乘的联系找到了----“对该向量伸缩变换”。

通过以上分析，我们就明白了特征值和特征向量是什么了？特征向量就是一个在矩阵A的变换下没有旋转只是伸缩变换，那到底伸缩了多少倍呢？伸缩了“特征值”倍。

2、看几条特征值分解的性质

重点在下面

我们发现一个矩阵经过特征值分解，最后可以变成一个特征值和特征向量相乘后累加的情况。既然是累加，那么加数就一定有大有小，因此一定可以对每项加数排序。我们思考一下，如果有一加数相比于其他加数非常小，我们能不能将这个加数省去，这样对最后的结果影响不是很大。

3、PCA的本质

（1）对X矩阵的说明，矩阵的每一列看成是一个样本，因此又n样本，每个样本有两个属性a,b.

（2）对协方差的几点说明：

（2.1）协方差的计算公式如图中所示

（2.2）协方差的意义，这曾经是一直困挠我的问题。协方差的意义是计算元素之间的相关性（相关程度）。如图中所示，图中的协方差计算的是特征a和特征b之间即自身的相关性。我们发现主对角线是自相关性，自己和自己肯定相关性最大，副对角线是互相关性，即特征a和特征b的相关性。（具体的我们可以去仔细看看协方差的计算就明白了）

（3）PCA的目标就是使协方差矩阵的主对角线的值尽可能的大，副对角线上的值尽可能的小，最好为0.为什么呢？我们上面已经说明，协方差的意义是衡量计算元素之间的相关性，如果我让副对角线的值为0，也就说明了特征a和特征b之间相关性为0，无相关性了。这也就是我们经常听到的PCA具有去相关性的作用。

可能有人又会问为什么要去除特征之间的相关性呢？比如在特征中有两个特征a,b,我们已知a+b=1,如果我们的样本中已经知道特征a的值，那么我们一定知道特征b的值，那我们还要特征b干嘛呢？这就是所谓的特征冗余。去除特征的相关性就是去除特征b，使保留下来的特征尽量无相关性。少量特征时，我们看不出去相关性的优势。想想一下，如果我们的特征有1亿维，而且这些特征的相关性非常高，那我们的很多计算都是多余的，这样会浪费大量的时间。所以我们需要利用PCA进行去相关性。

4、原矩阵的变换

上面我们提到过PCA的目标是使X的协方差矩阵的主对角线尽可能大，副对角线尽可能的小，甚至为0.那么我们怎样做呢？如果我们不能直接对X矩阵操作，那我们能不能对X变化后的矩阵进行操作呢？

从上图我们可以看出，首先对X矩阵进行转换，然后计算Y矩阵的协方差，如何是的Y矩阵的协方差是一个对角阵呢？为什么要弄成一个对角阵呢？对角阵只有主对角线上有值，其他地方为0.这正好符合PCA的目标，是协方差的主对角线上的值尽量大，其他地方的值为0.

U是X矩阵的特征向量矩阵， $\Lambda$ 是特征值组成的对角阵，所以如果我们令 $Q=U^{T}$ ,那么我们就可以得到 $C_{Y} = \Lambda$ ，这样我们用 $QX$ 对X矩阵变换后X中的特征间的相关性就达到了最低。

5、PCA降维

前面说的是PCA的去相关性，那怎么用PCA进行降维呢？我们再次回到下面这张图

我们发现A矩阵经过特征值分解后，最终得到一个累加形式，如果我们对特征值进行排序，省略的掉值很小的部分，这样特征值的个数减小了，那么矩阵 $\Lambda$ 会减小，相应的矩阵U和 $U^{T}$ 也会减小（维度上），这样我们我们返代回去求得A矩阵维度也会减小，这样就降维的目的。

6、简单实例

第一步，根据协方差公式 $C_{x}=(1/n)XX^{T}$ 计算X矩阵的协方差；

第二步，计算协方差的特征值和特征向量，对特征值进行从大到小排序，得到 $\Lambda = \begin{pmatrix} \lambda _{1} & \\ &\lambda _{2} \end{pmatrix}$ ，特征向量矩阵

U=[U1,U2], $Q=U^{T}$ ,所以 $Q= \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}$ ，这里的Q并没有错，因为有 $U\Lambda U^{T}$ 可知U应该是 $\begin{bmatrix} \frac{1}{\sqrt{2}} &\frac{1}{\sqrt{2}} \\ -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}$ 。

第三步，降维，由于 $\lambda _{1}> \lambda _{2}$ ，所以我们选择 $\lambda _{1}$ ，所以我们选择Q的第一行作为我们最终的Q值，用此Q值与X矩阵相乘得到Y矩阵，Y矩阵就是我们最终想得到的既去相关性又降维的矩阵，去相关性是因为我们找到了一个Q是的Y的协方差矩阵是个对角阵，降维是Q并非原始的特征向量矩阵，而是经过降维后的特征向量矩阵，这样和X相乘后将X降维。

讲到这里，PCA的本质就算讲完了。很抱歉，这篇博客是分开写，睡了一觉后脑子不好使了。后半部分写着写着自己也有点糊涂了，如果有的地方不对望请指正，非常感谢！

巴特西

【转】主成分分析(PCA)

最新文章

热门文章