最大间隔分类器的错误理解

以前:以为最大间隔是因为一条线段从中间分开会令平方和最大化;a+b=8; a=b=4j时,a^2+b^2是最小的,并不符合最大间隔的含义;

20180813:所有样本中距离超平面(将所有的样本正确分类)最近的几何间隔最大化;比如说确定了某平面A,离它最近的样本点的几何间隔为dA;确定了某平面B,离它最近的样本点的几何间隔为dB,以此类推,多个平面;那么最终的确定方案就是比例dA,dB,dC……,选择最大的值,即最大间隔分类器;

如图所示:

这里写图片描述 
  能够容忍更多噪声—>所有样本与分割超平面的距离尽可能远—>最差的样本(离分割超平面最近的样本)与分割超平面的距离要尽可能远

因此,SVM的目的就是从无数多个分割超平面中,找到这样最好的分割超平面;

所以SVM的优化目标:

令(x(i)x(i),y(i)y(i)),i=1,2,...,mi=1,2,...,m为训练集中的一个样本,一共有mm个样本。wTx+b=0wTx+b=0为超平面,ww和bb是我们要求的参数。则样本(x(i)x(i),y(i)y(i))到超平面wTx+b=0wTx+b=0的距离(几何间隔)定义为:

γ=|wTx+b|||w||γ=|wTx+b|||w||


  因为wTx+b=0wTx+b=0能正确分类样本,所以有:

y(wTx+b)>0y(wTx+b)>0


  因此为了计算方便,可以去掉γγ表达式中的绝对值,写成:

γ=y(wTx+b)||w||γ=y(wTx+b)||w||


  事实上,y取±1时,上式与最开始的定义完全等价。 
  重点来了!重点来了! 
  上面说到,我们要找的线描述为:离分割线最近的样本与分割线的距离尽量远 
  什么叫离分割线最近的样本?答:就是所有样本与分割线的距离,都大于等于该样本与分割线的距离。假设该样本为(x(k),y(k))(x(k),y(k)),则有:

y(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,my(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,m


  此为约束条件。 
  什么是尽量远?答:

maxw,by(k)(wTx(k)+b)||w||maxw,by(k)(wTx(k)+b)||w||


  此为目标。 
  为了书写方便,不妨设y(k)(wTx(k)+b)=Ky(k)(wTx(k)+b)=K(样本已确定,是一个常数),并约去约束条件中的分母,则上述两式联合起来可写为:

maxw,bK||w||maxw,bK||w||

s.t.y(i)(wTx(i)+b)≥K,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥K,i=1,2,...,m


  下面我们令w′=wK,b′=bKw′=wK,b′=bK,则有w=w′K,b=b′Kw=w′K,b=b′K,带入上述两式则有:

maxw,bK||w′K||即maxw,b1||w′||maxw,bK||w′K||即maxw,b1||w′||

s.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,ms.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,m


  易知,优化w′=wKw′=wK与b′=bKb′=bK等价于优化w,bw,b,且有maxw,b1||w||maxw,b1||w||等价于minw,b12||w||2minw,b12||w||2所以我们最终就得到如下优化目标:

minw,b12||w||2minw,b12||w||2

s.t.y(i)(wTx(i)+b)≥1,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥1,i=1,2,...,m


  这就是我们熟悉的SVM优化目标啦!(注:这是假设样本可以被完美分类的情况下的目标,称为硬间隔最大化)

参考:https://blog.csdn.net/a738779675/article/details/50989048

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/81628963