11 SVM - SMO - 序列最小优化算法

05 SVM - 支持向量机 - 概念、线性可分
06 SVM - 线性可分模型算法和案例
07 SVM - 软间隔模型
08 SVM - 软间隔模型算法流程

09 SVM - 线性不可分模型
10 SVM - 核函数

十三、SMO初识

序列最小优化算法 (Sequential minimal optimization, SMO) 是一种用于解决SVM训练过程中所产生的优化问题的算法。 于1998年由John Platt发明,论文详见:《Sequencial Minimal Optimization-a Fast Alg for Training SVM.pdf》

回顾线性可分SVM求解步骤:

3153092-ce2a56000e0ec575.png
回顾 - SVM优化问题

假定存在一个β*=(β1,β2,...,βm)是我们最终的最优解,那么根据KKT条件我们可以计算出w和b的最优解,如下:

3153092-6b1a5d562b9bed46.png
有了最优β*后,求解w,b

进而我们可以得到最终的分离超平面为:

3153092-fdf1ce7d56329775.png
目标 - 分离超平面

拉格朗日乘子法和KKT的对偶互补条件为:

3153092-4945457ede7d26d6.png

β、μ和C之间的关系为:C - βi - μi = 0

根据这个对偶互补条件,我们有如下关系式:

3153092-2d95b8cb905bbe38.png

也就是说我们找出的最优的分割超平面必须满足下列的目标条件(g(x)):

3153092-778ada6bf10472f2.png

拉格朗日对偶化要求的两个限制的初始条件为:

3153092-286bc27ce2f95a0d.png

从而可以得到解决问题的思路如下:

1、初始化后一个β值,让它满足对偶问题的两个初始限制条件

2、不断优化这个β值,使得由它确定的分割超平面满足g(x)目标条件;而且在优化过程中,始终保证β值满足初始限制条件

PS:这个求解过程中,和传统的思路不太一样,不是对目标函数求最小值,而是让g(x)目标条件尽可能的满足。

在这样一个过程中,到底如何优化这个β值呢???

整理可以发现β值的优化须遵循以下两个基本原则:

1、每次优化的时候,必须同时优化β的两个分量;因为如果只优化一个分量的话,新的β值就没法满足初始限制条件中等式约束条件了。

2、每次优化的两个分量应该是违反g(x)目标条件比较多的。也就是说,本来应当是大于等于1的,越是小于1违反g(x)目标条件就越多;

或者换一种思路来理解,因为目标函数中存在m个变量,直接优化比较难,利用启发式的方法/EM算法的思想,每次优化的时候,只优化两个变量,将其它的变量看成常数项,这样SMO算法就将一个复杂的优化算法转换为一个比较简单的两变量优化问题了。

3153092-7078a66853d0d19c.png
分析定义

十四、SMO算法推导

1、构建β1、β2的函数

3153092-9ab2c9145b8cefb9.png
目标函数转换

认为β1、β2是变量,其它β值是常量,从而将目标函数转换如下:

3153092-755540d3d5514b92.png

由于β1y1 + β2y2 = k,并且y2 = 1,使用β2来表示β1的值:

3153092-c42b1e2da2b6dcfd.png
用β2来表示β1的值

将上式带入目标优化函数,就可以消去β1,从而只留下仅仅包含β2的式子。

3153092-727831a47a2cecba.png
最终求得的公式

深入分析最终求得的公式

3153092-3387c320d1ae3f87.png
深入分析 - 1
3153092-8e723318edf3a4ce.png
深入分析 - 2

2、求解β2的值

深入分析步骤1:

3153092-680b913b1b8587c0.png
深入分析步骤1
3153092-76bc68c0c314e457.png
求解β2步骤 - 1
3153092-adfedf4f13d6a2cf.png
求解β2步骤 - 2
3153092-d1b5193fe939d708.png
求解β2步骤 - 3
3153092-acd56d6ddc1d725d.png
分析最后的公式

求解完最优的β值后,我们接下来要考虑限制条件。


3、考虑β1和β2的取值限定范围

3153092-9ab2c9145b8cefb9.png
目标函数转换
3153092-865aef5f92d8472f.png
β1和β2的取值限定范围
考虑β1和β2的取值限定范围,假定新求出来的β值是满足我们的边界限制的,即如下所示:
3153092-dff3fe57e02ff13f.png
β值是满足边界限制
3153092-8a0d8fa3bee157d5.png
分析y1==y2时β的取值范围

当y1=y2的时候,β1+β2=k; 由于β的限制条件,我们可以得到:

3153092-b157cd329bf8def2.png
y1==y2

当y1≠y2的时候,β1-β2=k;由于β的限制条件,我们可以得到:

3153092-fab4e680dd6842c2.png
y1≠y2

结合β的取值限制范围以及函数W的β最优解,我们可以得带迭代过程中的最优解为:

3153092-de178f4faa271a01.png
最优解

然后根据β1和β2的关系,从而可以得到迭代后的β1的值:

3153092-4c7e2e210a212f0d.png
迭代后的β1的值

求解β的过程中,相关公式如下:

3153092-d63316c6b866fa55.png
求解β的过程

求解最优β讨论到这里,不明白的可以私信。
下章讨论如何选择最初的β变量。

12 SVM - SMO - 初始β变量的选择

猜你喜欢

转载自blog.csdn.net/weixin_34260991/article/details/87438972