模式识别--统计模式识别(3)

统计模式识别——各种各样的线性分类器(1)

1.垂直平分分类器(最小距离分类器)

  • 设计思路

基于两类样本均值点作垂直平分线


  • 分类器的垂直平分形式

对于两类二维问题(C=2,D=2)

对于任何的线性分类器都有线性判别函数:g(x) = wTx + w0,决策面方程为:g(x) = 0即wTx + w0= 0.

  • 求解步骤

1. 对于C=2,先求两类样本的均值m1和m2(m1和m2都为向量);

2. 利用垂直几何关系,因为w为决策面的法向量,在二维的前提下就是分类线的垂线,而分类线在上图中可以看到是两个类别中心连线(m1-m2)的垂线,即权向量w可以取w = (m1–m2);

3. 此时判别直线方程变为(m1–m2) T x + w0= 0,(注意正侧在m1这边)

4. 求解阈值权w0

已知中点x0= (m1+ m2) / 2在分类线上,将x0带入判别直线中,令其等于0可得

w0= -(m1–m2) T (m1+ m2) / 2

5. 最终可得线性判别函数

g(x) =(m1–m2) T x -(m1–m2) T (m1+ m2) / 2= (m1–m2) T ( x -(m1+ m2) / 2 )

决策面H的方程为:(m1–m2) T ( x -(m1+ m2) / 2 )=0

6.垂直平分决策规则为:

对于未知样本x,若g(x) > 0,则x决策为ω1类;
                          若g(x) < 0,则x决策为ω2类;

两类多维问题的求解类似上述步骤。

  • 垂直平分线性分类器的最小距离形式

定义欧式距离(非线性)为判别函数
G1(x) = d1(x) =║x –m1║
G1(x) = d2(x) =║x –m2║


决策规则:

 等价的最小距离决策规则为

        对于未知样本x,若d1(x) < d2(x) ,则x决策为ω1类
                                 若d1(x) > d2(x) ,则x决策为ω2类

  • 最小距离分类器的主要特点:

1.解决两类分类问题的线性分类器;
2.原则上对样本集无特殊要求;
3.未采用准则函数求极值解(非最佳决策);
4.算法最简单,分类器设计最容易;

2.线性判别分析(Linear Discriminant Analysis,LDA)

LDA是一种经典的线性学习方法,在二分类问题上也被称为Fisher判别分析

  • 设计思路

给定训练样本集,设法将样本投影到一条直线上,使得同类样例的投影点尽可能接近,异类样本的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新的样本所属的类别。

整体思路:通过投影对高维分类问题降维,在低维空间更容易设计分类器(使得同类样例的投影点尽可能接近,异类样本的投影点尽可能远离)。

示意图:

如图所示左图的投影方向更好,可以更好的分类样本,问题来了:如何寻找最好的投影方向?

  • 问题描述

已知C=2,D维分类问题的样本集;

设投影向量为w,则一维投影方程为y=wTx;

求最佳投影向量w(的方向);

  • 求解步骤

若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为;若将所有样本点都投影到直线上,则两类样本的协方差分别为由于直线是一维空间,因此

1.同类样例的投影点尽可能接近、异类样例的投影点尽可能远离的原则,欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即尽可能大。同时考虑二者,则可得到最大化的目标:


2.定义"类内散度矩阵":(类内散度矩阵时协方差矩阵的n-1倍)


定义“类间散度矩阵”:


最大化目标变为:


 这就是LDA欲最大化的目标,即Sw与Sb的"广义瑞利商" (Rayleigh)根据广义瑞利商的性质,我们知道我们的J(w)最大值为矩阵的最大特征值,而对应的w的最大特征值对应的特征向量。

3.确定w

(1)

根据广义瑞利商的性质,我们知道我们的J(w)最大值为矩阵的最大特征值,而对应的w为的最大特征值对应的特征向量,即:

Sw-1W=λW,而W是常数,所以可得:

进而可得


(2)同样可以根据拉格朗日乘子法得到类似结论。

也就是说我们只要求出原始二类样本的均值和协方差矩阵就可以确定最佳的投影方向w了。

  • LDA降维最多降到类别数k-1的维数。由于投影矩阵W是一个利用了样本的类别得到的投影矩阵(n*d,一般d<<n)

而的秩最大为k-1(具体分析见下一问),,所以最多有k-1个非0的特征值,即最多有k-1个特征向量,因此它降维的

维度d最大值为k-1。

  • LDA和PCA的对比

相同点:

1)两者均可以对数据进行降维

2)两者在降维时均使用了矩阵特征分解的思想。(求特征值、特征向量)

3)两者都假设数据符合高斯分布

不同点:

1)LDA是有监督的降维方法,而PCA是无监督的降维方法

2)LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。

3)LDA除了可以用于降维,还可以用于分类。

4)LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向


以上是两种常用的线性分类器,下面我们将介绍其他的线性分类器。

猜你喜欢

转载自blog.csdn.net/sunkaiand/article/details/80746448