2-7 感知机对偶形式 梯度下降法的推导过程

在感知机的原始形式中,模型为:
f ( x ) = s i g n ( w x + b ) s i g n ( x ) = { + 1 , x 0 1 , x < 0 (1) f(x) = sign(w \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \tag {1}
对应的梯度下降法的偏导公式为:
{ w n e w = w o l d + η y i x i b n e w = b o l d + η y i (2) \begin{cases} w_{new} = w_{old} + \eta y_ix_i \\ b_{new} = b_{old} + \eta y_i \end{cases} \tag {2}

在感知机的对偶形式中,模型演变为:
f ( x ) = s i g n ( j = 1 m a j y j x j x + b ) s i g n ( x ) = { + 1 , x 0 1 , x < 0 f(x) = sign(\sum_{j=1}^m a_jy_jx_j \cdot x + b) \\ sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases}
感知机的对偶模型,实际是把原始模型中的w,b展开为:
{ w = j = 1 m a j y j x j b = j = 1 m a j y j (3) \begin{cases} w = \sum_{j=1}^m a_jy_jx_j \\ b = \sum_{j=1}^m a_jy_j \end{cases} \tag {3}
对应的梯度下降法的偏导公式中的w则演变为:
( j = 1 m a j y j x j ) n e w = ( j = 1 m a j y j x j ) o l d + η y i x i (4) (\sum_{j=1}^m a_jy_jx_j)_{new} = (\sum_{j=1}^m a_jy_jx_j)_{old} + \eta y_ix_i \tag {4}
对以上公式进一步简化:

  1. 由于使用的是随机梯度下降法,假设误分类集合M中只有一个点 ( x j , y j ) (x_j, y_j)
  2. 公式(4)左右两边都去掉 y j x j y_jx_j ,得到
    ( a j ) n e w = ( a j ) o l d + η (5) (a_j)_{new} = (a_j)_{old} + \eta \tag {5}

公式(3)中的b更新方式不变,与公式(5)结合,得:
{ ( a j ) n e w = ( a j ) o l d + η b n e w = b o l d + a j y j (6) \begin{cases} (a_j)_{new} = (a_j)_{old} + \eta \\ b_{new} = b_{old} + a_jy_j \end{cases} \tag {6}

发布了407 篇原创文章 · 获赞 328 · 访问量 111万+

猜你喜欢

转载自blog.csdn.net/mishifangxiangdefeng/article/details/104641962
今日推荐