模式识别--统计模式识别(7)

统计模式识别——非线性分类器

1.非线性分类器基础

非线性分类器概念

很多情况下我们并不能保证类别间的分类面是线性的(线性是最简单的情况),而且许多复杂问题中,可能采用非线性分类器更适合问题的解决。非线性分类器的模型分界面可以是曲面或者超平面的组合。

2.非线性分类器的类别划分

常用的非线性分类器主要有两大类:基于判别函数的和非基于判别函数的;

基于判别函数的非线性分类器

1)分段线性分类器:基于非线性函数可以由多段线性函数来拟合和逼近的思想,如分段线性距离分类器,即多个最小距离分类器的组合,其中所谓的最小距离分类器,就是在先验概率相等,各维特征独立且方差相等条件下的最小错误率贝叶斯决策,思路很简单,就是以两类的均值为中心点,离谁的中心点近就讲新样本给到哪一类;

2)二次判别函数:如正态分布下的贝叶斯决策面,就是二次函数;

3)多层感知器:这是一种神经网络(NN)的思想,由多个感知器的组合;

4)SVM:前面已经学习了最优超平面,即线性的SVM,这里所说的主要是非线性的SVM;

5)核函数法:自然会想到前面学习的Fisher线性判别,没错,这里的核函数法就包括Fisher判别的非线性推广;但是这里的核函数法的灵感出现,主要来源于SVM中两个核心思想:大间隔和核函数,借用这两个思想,人们对传统的线性函数做了具体改变,就形成了核函数法,或叫做核方法;

6)LR,又叫逻辑回归(Logistic regression),这是一种广义的线性分类器。

非基于判别函数的非线性分类器

1)近邻法:如最近邻,压缩近邻等;

2)决策树

3)随机森林

4)Boosting方法

3.多分类问题

对于一个k类别分类问题,我们要做的是判断一个样本是k类别中的哪一类,实际上是二分类问题的拓展,解决方法也是二分类分类方法的延伸。

常用的多分类方法可分为两种:一对多方法(One-Versus-All)和一对一方法(One-Versus-One)

一对多方法(One-Versus-All)

1. 用逻辑回归或其他相应的分类方法训练k-1个分类器 ,分类器Dk的训练过程为:把属于第k个类别的样本归为一类,把剩下k-1个类的样本归为另一类,以此作为二分类训练样本训练出一个二分类器; 

2. 决策时,输入一个测试样本的x,分别代入k-1个分类器,取其中输出最大的那一类(即最大可能性)作为自己的类标。

样本不平衡问题:一对多方法在训练每个分类器时,其训练样本是1类对k-1类,正负样本的规模相差较大,如1个正样本和99个负样本,则在训练此分类器时很有可能最终的分类器是D(x)=-1,即不论输入什么都输出-1,这样他的错误率也很小只有0.01,达不到训练的效果。解决这个问题可以用一对一方法。

一对一方法(One-Versus-One)

1. 训练这里写图片描述个分类器,每个分类器只拿其中两类样本作为正负样本来训练; 
2. 决策时使用投票原则,即将测试样本的x输入这里写图片描述 个分类器,每个分类器输出一个判别结果,得票最多的那一类作为他的类标。

一对一方法没有样本不平衡问题,但是相对于一对多方法较慢。


以上就是关于非线性分类器的基础。

猜你喜欢

转载自blog.csdn.net/sunkaiand/article/details/80758632