SVM从原始问题到对偶问题的转换及原因

1、转化对偶问题

上篇博客中我们得到的目标函数:

(1)

我们在优化时喜欢求最小值,将上式转化正等价的求最小值如下:

      (2)

对于(2)式,这是一个凸二次规划问题,我们可以使用拉格朗日乘数法进行优化。    

    (3)

(3)式中的是拉格朗日乘子,然后我们令:        

            (4)

为什么能这样假设呢?如果约束条件都满足,(4)式的最优值就是,和目标函数一样。

因此我们可以直接求(4)式的最小值,等价于求原目标函数。因此目标函数变成如下:

(5)

将求最大值和最小值交换位置后

(6)


交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用来表示。而且有d*≤p*,在满足某些条件的情况下,这两者相等,这个时候就可以通过求解对偶问题来间接地求解原始问题。为什么要这样转换呢?此处借他人之言,之所以从minmax的原始问题,转化为maxmin的对偶问题,一者因为是的近似解,二者,转化为对偶问题后,更容易求解。下面可以先求L 对w、b的极小,再求L 对的极大。


2、求解对偶问题

回顾一下上面的目标函数L

(7)

这是一个拉格朗日乘法优化方法得到的,由于要求

(8)


先求最大值,后求最小值,求最小值时,将a看成常量,那么L就是w,b的函数了。极值在导数为0的点处取到,因此分
别求L对w,b的导数,并令其为0,得如下结果。

(9)

将(9)式带入(7)(为什么呢?)得到:

(10)


为什么能将(9)式带入(7)式呢?因为极值在导数为零的点处取到,因此(9)式符合(7)式取极值时w,b的取值。(10)式就是(7)式的最小值了,求完最小值,然后求最大值。求对的极大,即是关于对偶问题的最优化问题。经过上面第一个步骤的求w和b,得到的拉格朗日函数式子已经没有了变量w,b,只有。从上面的式子得到:

(11)


(11)式是关于a的式子,如果能求出a,则可以根据(7)式求出w。求出w后可以根据前面函数距离等于1的假设求出b

怎样求a呢?这需要后面的核函数和松弛量的知识,利用SMO算法求解,下篇博客继续介绍核函数。
最后给大家附一张我的推到图,是上面内容的简化版本。

为什么要从原始问题转换成对偶问题的总结:

  1. 对偶问题将原始问题中的约束转为了对偶问题中的等式约束
  2. 方便核函数的引入
  3. 改变了问题的复杂度。由求特征向量w转化为求比例系数a,在原始问题下,求解的复杂度与样本的维度有关,即w的维度。在对偶问题下,只与样本数量有关。
  4. 求解更高效,因为只用求解alpha系数,而alpha系数只有支持向里才非0,其它全部为0。

猜你喜欢

转载自blog.csdn.net/xiaocong1990/article/details/83037848
今日推荐