机器学习算法(九)特征降维——PCA 与 LDA

前言

在做任何机器学习算法训练之前,无论该算法模型是分类、回归还是聚类,我们都需要从原始数据中提取数据特征,然后将提取的特征组合成特征向量的形式输入到模型中进行训练。但是现实中往往会存在这么一个问题:原始数据特征的维度特别高,不利于模型的训练。这时候我们需要对原始数据的特征向量进行降维处理,然后将降维后的数据输入到模型中进行训练,得出最终的训练模型。

PCA 与 LDA 算法就是在这种需求之下产生的。它们是专门用来对高维数据进行降维而设计的,在确保数据信息损失在可接受范围内,通过将高维数据降维后得到的低维数能加快模型的训练速度,并且低维度的特征具有更好的可视化性质。但是有一点我们必须明确:降维或多或少地会带来一定的信息损失,因此我们在算法的应用过程中一般需要设置一个损失阈值的方法来有效的控制信息的损失。

PCA 算法降维原理

PCA 的理论基础建立在严格的线性代数矩阵分析之上。因此,为了让广大的算法爱好者都能够更好的理解 PCA 算法的工作原理。我们需要先温习一下与 PCA 算法相关的线性代数基础知识。

方差
image.png

协方差
对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该是“几乎重合在一起”,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:
image.png
可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数 m。

当协方差为0时,表示两个字段完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。

至此,我们得到了降维问题的优化目标:将一组 N 维向量降为 K 维(K 大于0,小于 N),其目标是选择 K 个单位(模为1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

协方差矩阵

上面我们导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但根本没有说怎么做。所以我们要继续在数学上研究计算方案。

我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们来了灵感。
image.png

协方差矩阵对角化
image.png
至此,我们离“发明”PCA 还有仅一步之遥!

现在所有焦点都聚焦在了协方差矩阵对角化问题上,有时,我们真应该感谢数学家的先行,因为矩阵对角化在线性代数领域已经属于被玩烂了的东西,所以这在数学上根本不是问题。

由上文知道,协方差矩阵 C 是一个实对称矩阵,在线性代数上,实对称矩阵有一系列非常好的性质:

  1. 实对称矩阵不同特征值对应的特征向量必然正交。
  2. 设特征向量 λλ 重数为 r,则必然存在 r 个线性无关的特征向量对应于 λλ,因此可以将这 r 个特征向量单位正交化。

image.png

PCA 算法的执行步骤
image.png

PCA 算法误差分析
image.png

LDA 算法降维原理

LDA 简介
image.png
image.png
其中红色的方形的点为第一类的原始点、蓝色的方形点为第二类的原始点。经过原点的那条线就是投影的直线,我们可以清楚的看到,红色的点和蓝色的点被原点明显的分开了。

LDA 模型建立
下面我来推导一下二分类 LDA 问题的公式。
image.png
我们分类的目标是,使得类别内的点距离越近越好(集中),类别间的点越远越好。分母表示每一个类别内的方差之和,方差越大表示一个类别内的点越分散,分子为两个类别各自的中心点的距离的平方,我们最大化 J(w) 就可以求出最优的 w 了。想要求出最优的 w,可以使用拉格朗日乘子法,但是现在我们得到的 J(w) 里面,w 是不能被单独提出来的,我们就得想办法将 w 单独提出来。

LDA 模型求解
image.png
image.png

PCA 与 LDA 降维案例实战

本例中我们使用的是 iris 数据集,它的原始数据是 4 维的,我们降维后使用 2 维。具体代码及运行结果如下:

import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

iris = datasets.load_iris()

X = iris.data
y = iris.target
target_names = iris.target_names

pca = PCA(n_components=2)
X_r = pca.fit(X).transform(X)

lda = LinearDiscriminantAnalysis(n_components=2)
X_r2 = lda.fit(X, y).transform(X)

# Percentage of variance explained for each components
print('explained variance ratio (first two components): %s'
      % str(pca.explained_variance_ratio_))

plt.figure()
colors = ['navy', 'turquoise', 'darkorange']
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('PCA of IRIS dataset')

plt.figure()
for color, i, target_name in zip(colors, [0, 1, 2], target_names):
    plt.scatter(X_r2[y == i, 0], X_r2[y == i, 1], alpha=.8, color=color,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('LDA of IRIS dataset')

plt.show()

运行结果

explained variance ratio (first two components): [ 0.92461621  0.05301557]

image.png
image.png

猜你喜欢

转载自blog.csdn.net/datawhale/article/details/81212055