支持向量机3——SMO算法

根据上一篇的对偶问题的结论，我们现在的目的是计算下式子，也就是找到一系列 $\alpha$ 使得 $(3.1)$ 公式达到最大值。

\begin{matrix} (3.1) & max_{α} \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} s t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0 \end{matrix}

$\max \limits_{\alpha}\sum_{i=1}^{m}\alpha_i -\frac{1}{2}{\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_ix_j}\\ st.\ \sum_{i=1}^{m}{\alpha_iy_i}=0\quad \alpha_i\ge 0\tag{3.1}$

换一种表达方式那么就是让找到一系列 $\alpha$ 使得 $(3.2)$ 公式达到最小值。

\begin{matrix} (3.2) & min_{α} \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i} x_{j} - \sum_{i = 1}^{m} α_{i} s t . \sum_{i = 1}^{m} α_{i} y_{i} = 0 α_{i} \geq 0 \end{matrix}

$\min \limits_{\alpha}\frac{1}{2}{\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_jx_ix_j}-\sum_{i=1}^{m}\alpha_i \\ st.\ \sum_{i=1}^{m}{\alpha_iy_i}=0\quad \alpha_i\ge 0\tag{3.2}$

那么现在问题就是如何解

(3.2)

$(3.2)$ 公式。不难发现，这是一个二次规划的问题。可使用通用的二次规化算法来求解。然而，该问题的规模正比于训练样本数，这会在实际中造成很大的开销。SMO（Sequential Minimal Optimization）可以更高效的解决上述SVM问题。

它的基本思路是先固定 $\alpha_i$ 之外的所有参数，然后求 $\alpha_i$ 上的极值，由于存在约束 $\sum_{i=1}^{m}{\alpha_iy_i}=0$ ，若固定 $\alpha_i$ 之外的其它变量，则 $\alpha_i$ 可由其它变量导出。于是，SMO每次选择两个变量 $\alpha_i,\alpha_j$ ，并固定其它参数。

假设选择优化的参数是 $\ \alpha_1, \alpha_2 \$ ，那么需要固定其它 $\ m-2\$ 个参数。可以将 $(3.2)$ 式简化为只关于 $\ \alpha_1, \alpha_2\$ 的式子。

\begin{matrix} (3.3) & \begin{aligned} min_{α_{1}, α_{2}} \frac{1}{2} (α_{1}^{2} y_{1}^{2} x_{1}^{2} + α_{2}^{2} y_{2}^{2} x_{2}^{2} + 2 α_{1} α_{2} y_{1} y_{2} x_{1} x_{2}) - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + C o n a t a n t \\ v_{i} = \sum_{j = 3}^{m} α_{j} x_{j} y_{j} x_{i} i = 1, 2 \end{aligned} \end{matrix}

$\begin{aligned}& \min \limits_{\alpha_1, \alpha_2}\frac{1}{2}\left( {\alpha_1^2y_1^2x_1^2 + \alpha_2^2y_2^2x_2^2 + 2\alpha_1\alpha_2y_1y_2x_1x_2}\right ) \ - \ (\alpha_1+\alpha_2) \ + \ y_1\alpha_1v_1 \ +\ y_2\alpha_2v_2 \ + \ Conatant \\ & v_i = \sum_{j=3}^{m}\alpha_jx_jy_jx_i\qquad i=1, 2 \end{aligned}\tag{3.3}$

其中 $Constant$ 代表和 $\alpha_1,\alpha_2$ 无关的常数项。由于 $y_i*y_i \ == 1\$ ，故上式可变为 $(3.4)$

\begin{matrix} (3.4) & \begin{aligned} min_{α_{1}, α_{2}} = \frac{1}{2} (α_{1}^{2} x_{1}^{2} + α_{2}^{2} x_{2}^{2} + 2 α_{1} α_{2} y_{1} y_{2} x_{1} x_{2}) - (α_{1} + α_{2}) + y_{1} α_{1} v_{1} + y_{2} α_{2} v_{2} + C o n a t a n t \\ v_{i} = \sum_{j = 3}^{m} α_{j} x_{j} y_{j} x_{i} i = 1, 2 \end{aligned} \end{matrix}

$\begin{aligned}& \min \limits_{\alpha_1, \alpha_2}=\frac{1}{2}\left( {\alpha_1^2x_1^2 + \alpha_2^2x_2^2 + 2\alpha_1\alpha_2y_1y_2x_1x_2}\right ) \ - \ (\alpha_1+\alpha_2) \ + \ y_1\alpha_1v_1 \ +\ y_2\alpha_2v_2 \ + \ Conatant \\ & v_i = \sum_{j=3}^{m}\alpha_jx_jy_jx_i\qquad i=1, 2 \end{aligned}\tag{3.4}$

由于约束条件 $\sum_{i=1}^{m}{\alpha_iy_i}=0\quad \alpha_i\ge 0$ ，那么：

\begin{matrix} (3.5) & α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{m} α_{i} y_{i} = ζ \end{matrix}

$\alpha_1y_1 + \alpha_2y_2=-\sum_{i=3}^{m}\alpha_iy_i= \zeta\tag{3.5}$

可见 $\zeta$ 为定值，则在等式两端同时乘以 $y_1$ ， $y_1^2=1$ ，得到：

\begin{matrix} (3.6) & α_{1} = (ζ - α_{2} y_{2}) y_{1} \end{matrix}

$\alpha_1 =(\zeta - \alpha_2y_2)y_1\tag{3.6}$

将 $(3.6)$ 带入 $(3.4)$ 中：

\begin{matrix} (3.7) & min_{α_{2}} \frac{1}{2} (ζ - α_{2} y_{2})^{2} x_{1}^{2} + \frac{1}{2} α_{2}^{2} x_{2}^{2} + (ζ - α_{2} y_{2}) α_{2} y_{2} x_{1} x_{2} - (ζ - α_{2} y_{2}) y_{1} - α_{2} + (ζ - α_{2} y_{2}) v_{1} + y_{2} v_{2} α_{2} \end{matrix}

$\min \limits_{\alpha_2} \frac{1}{2}{(\zeta-\alpha_2y_2)^2x_1^2+\frac{1}{2}\alpha_2^2x_2^2} + (\zeta - \alpha_2y_2)\alpha_2y_2x_1x_2-(\zeta - \alpha_2y_2)y_1-\alpha_2+(\zeta - \alpha_2y_2)v_1 + y_2v_2\alpha_2\tag{3.7}$

对 $(3.7)$ 的 $\alpha_2$ 求导，并令求导后的式子为0，以便于求得极值。令 $(3.7)$ 式子为 $\psi(\alpha_2)$ :

\begin{matrix} (3.8) & \frac{\partial ψ (α_{2})}{\partial α_{2}} = (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2} - ζ y_{2} x_{1}^{2} + ζ y_{2} x_{1} x_{2} + y_{1} y_{2} - 1 - v_{1} y_{2} + v_{2} y_{2} = 0 \end{matrix}

$\frac{\partial \psi(\alpha_2)}{\partial \alpha_2}={(x_1^2+x_2^2-2x_1x_2)\alpha_2 -\zeta y_2x_1^2+\zeta y_2x_1x_2+y_1y_2-1-v_1y_2+v_2y_2}=0\tag{3.8}$

由上式子假设求得了 $\alpha_2$ 的值，带入 $(3.6)$ 即可求得 $\alpha_1$ ，分为标记为 $\alpha_1^{new},\alpha_2^{new}$ ，优化之前的记录为 $\alpha_1^{old},\alpha_2^{old}$ 。由于 $(3.5)$ 式，可知
$\begin{matrix} (3.9) & ζ = α_{1}^{o l d} y_{1} + α_{2}^{o l d} y_{2} = α_{1}^{n e w} y_{1} + α_{2}^{n e w} y_{2} \end{matrix}$ $\zeta = \alpha_1^{old}y_1+\alpha_2^{old}y_2=\alpha_1^{new}y_1+\alpha_2^{new}y_2\tag{3.9}$
由于对偶问题中已经求得 $\omega = \sum_{i=1}^{m}{\alpha_iy_ix_i}$ ，SVM的超平面为 $f(x)=\omega^Tx+b\tag{3.10}$ ，则
$\begin{matrix} (3.11) & f (x) = \sum_{i = 1}^{m} α_{i} y_{i} x_{i} x + b \end{matrix}$ $f(x)= \sum_{i=1}^{m}{\alpha_iy_ix_i}x+b\tag{3.11}$
由于 $v_i=\sum_{j=3}^{m}{\alpha_jy_jx_jx_i}\quad i=1, 2$
$\begin{matrix} (3.12) & v_{1} = f (x) - b - \sum_{j = 1}^{2} α_{j} x_{j} y_{j} x_{1} \end{matrix}$ $v_1=f(x)-b-\sum_{j=1}^{2}\alpha_jx_jy_jx_1\tag{3.12}$
$\begin{matrix} (3.13) & v_{2} = f (x) - b - \sum_{j = 1}^{2} α_{j} x_{j} y_{j} x_{2} \end{matrix}$ $v_2=f(x)-b-\sum_{j=1}^{2}\alpha_jx_jy_jx_2\tag{3.13}$

将 $(3.9),(3.12),(3.13)$ 带入 $(3.8)$ 中

\begin{matrix} (3.14) & (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2}^{n e w} = (x_{1}^{2} + x_{2}^{2} - 2 x_{1} x_{2}) α_{2}^{o l d} + y_{2} [y_{2} - y_{1} + f (x_{1}) - f (x_{2})] \end{matrix}

$(x_1^2+x_2^2-2x_1x_2)\alpha_2^{new}=(x_1^2+x_2^2-2x_1x_2)\alpha_2^{old}+y_2\left[y_2-y_1+f(x_1)-f(x_2)\right]\tag{3.14}$

\begin{matrix} (3.15) & α_{2}^{n e w} = α_{2}^{o l d} + \frac{y_{2} (E_{1} - E_{2})}{η} \end{matrix}

$\alpha_2^{new}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}\tag{3.15}$

其中E表示预测值和真实值的差。

[机器学习]支持向量机3——SMO算法

支持向量机3——SMO算法

猜你喜欢