2-3 感知机梯度下降法的推导过程

感知机的损失函数:
L ( w , b ) = x i M y i ( w x i + b ) (1) L(w, b) = - \sum_{x_i \in M}y_i (w \cdot x_i + b) \tag {1}
目标是最小化这个损失函数。

使用梯度下降法求出 L ( w , b ) L(w,b) $的偏导,使w,b向导数的负方向移动。
{ w L ( w , b ) = x i M y i x i b L ( w , b ) = x i M y i (2) \begin{cases} \nabla_wL(w,b) = - \sum_{x_i \in M}y_ix_i \\ \nabla_bL(w,b) = - \sum_{x_i \in M}y_i \end{cases} \tag {2}
其中M是错误分类点的集合

由于perceptron使用随机梯度下降法,一次只基于一个点来调整w,b。
假设当前选择的误分类点是 ( x i , y i ) (x_i, y_i) M ,那就相当集合M中只有 ( x i , y i ) (x_i, y_i) $这一个点,偏导公式(2)可简化为
{ w L ( w , b ) = y i x i b L ( w , b ) = y i (3) \begin{cases} \nabla_wL(w,b) = - y_ix_i \\ \nabla_bL(w,b) = - y_i \end{cases} \tag {3}

令(w,b)向导数的负方向移动,学习率为 η \eta $,得到
{ w n e w = w o l d + η y i x i b n e w = b o l d + η y i (4) \begin{cases} w_{new} = w_{old} + \eta y_ix_i \\ b_{new} = b_{old} + \eta y_i \end{cases} \tag {4}

发布了407 篇原创文章 · 获赞 328 · 访问量 111万+

猜你喜欢

转载自blog.csdn.net/mishifangxiangdefeng/article/details/104313925
2-3