最大间隔分类器的错误理解

以前：以为最大间隔是因为一条线段从中间分开会令平方和最大化；a+b=8; a=b=4j时,a^2+b^2是最小的，并不符合最大间隔的含义；

20180813：所有样本中距离超平面（将所有的样本正确分类）最近的几何间隔最大化；比如说确定了某平面A，离它最近的样本点的几何间隔为dA；确定了某平面B，离它最近的样本点的几何间隔为dB，以此类推，多个平面；那么最终的确定方案就是比例dA,dB，dC……，选择最大的值，即最大间隔分类器；

如图所示：

这里写图片描述
　　能够容忍更多噪声—>所有样本与分割超平面的距离尽可能远—>最差的样本（离分割超平面最近的样本）与分割超平面的距离要尽可能远

因此，SVM的目的就是从无数多个分割超平面中，找到这样最好的分割超平面；

所以SVM的优化目标：

令(x(i)x(i),y(i)y(i))，i=1,2,...,mi=1,2,...,m为训练集中的一个样本，一共有mm个样本。wTx+b=0wTx+b=0为超平面，ww和bb是我们要求的参数。则样本(x(i)x(i),y(i)y(i))到超平面wTx+b=0wTx+b=0的距离（几何间隔）定义为：

γ=|wTx+b|||w||γ=|wTx+b|||w||

　　因为wTx+b=0wTx+b=0能正确分类样本，所以有：

y(wTx+b)>0y(wTx+b)>0

　　因此为了计算方便，可以去掉γγ表达式中的绝对值，写成：

γ=y(wTx+b)||w||γ=y(wTx+b)||w||

　　事实上，y取±1时，上式与最开始的定义完全等价。
　　重点来了！重点来了！
　　上面说到，我们要找的线描述为：离分割线最近的样本与分割线的距离尽量远
　　什么叫离分割线最近的样本？答：就是所有样本与分割线的距离，都大于等于该样本与分割线的距离。假设该样本为(x(k),y(k))(x(k),y(k))，则有：

y(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,my(i)(wTx(i)+b)||w||≥y(k)(wTx(k)+b)||w||,i=1,2,...,m

　　此为约束条件。
　　什么是尽量远？答：

maxw,by(k)(wTx(k)+b)||w||maxw,by(k)(wTx(k)+b)||w||

　　此为目标。
　　为了书写方便，不妨设y(k)(wTx(k)+b)=Ky(k)(wTx(k)+b)=K（样本已确定，是一个常数），并约去约束条件中的分母，则上述两式联合起来可写为：

maxw,bK||w||maxw,bK||w||

s.t.y(i)(wTx(i)+b)≥K,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥K,i=1,2,...,m

　　下面我们令w′=wK,b′=bKw′=wK,b′=bK，则有w=w′K,b=b′Kw=w′K,b=b′K，带入上述两式则有：

maxw,bK||w′K||即maxw,b1||w′||maxw,bK||w′K||即maxw,b1||w′||

s.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,ms.t.y(i)(w′TKx(i)+b′K)≥K即y(i)(w′Tx(i)+b′)≥1,i=1,2,...,m

　　易知，优化w′=wKw′=wK与b′=bKb′=bK等价于优化w,bw,b，且有maxw,b1||w||maxw,b1||w||等价于minw,b12||w||2minw,b12||w||2所以我们最终就得到如下优化目标：

minw,b12||w||2minw,b12||w||2

s.t.y(i)(wTx(i)+b)≥1,i=1,2,...,ms.t.y(i)(wTx(i)+b)≥1,i=1,2,...,m

　　这就是我们熟悉的SVM优化目标啦！（注：这是假设样本可以被完美分类的情况下的目标，称为硬间隔最大化）

参考：https://blog.csdn.net/a738779675/article/details/50989048

最大间隔分类器的错误理解

猜你喜欢