感知机模型(收敛性和对偶学习)

感知机模型

感知机判别模型
f ( x ) = sign ( w x + b ) , sign ( x ) = { + 1 , x 0 1 , x < 0 f( x)=\text{sign}( w\cdot x+b), \quad\text{sign}(x)= \begin{cases} +1,&x\geq0\\ -1,&x\lt0 \end{cases}
其中 w w 称为权值向量, b b 称为权值偏置。


感知机损失函数

选取误分类点到超平面的总距离作为损失函数,M表示误分类样本集,则:
L ( w , b ) = ( x , y ) M 1 w w x + b = 1 w ( x , y ) M y ( w x + b ) ( x , y ) M y ( w x + b ) L( w,b) = \sum_{( x,y)\in M}\frac{1}{|| w||}| w\cdot x+b|= -\frac{1}{|| w||}\sum_{( x,y)\in M}y( w\cdot x+b)\simeq-\sum_{( x,y)\in M}y( w\cdot x+b)
误分类样本始终满足 y ( w x + b ) > 0 -y( w\cdot x+b)>0


感知机训练

误分类样本集为M,目标函数
L ( w , b ) = x M y ( w x + b ) = x y ( w ^ x ^ ) , w ^ = ( w , 1 ) ,   x ^ = ( x , 1 ) L( w,b)=-\sum_{x\in M}y( w\cdot x+b)=-\sum_xy(\hat w\cdot\hat x),\quad \hat w=(w, 1),\ \hat x=( x,1)^\top
使用随机梯度下降,得更新公式
w n + 1 = w n + η y i x i , b n + 1 = b n + η y i       w ^ n + 1 = w ^ n + η y i x ^ i w_{n+1} = w_n + \eta y_i x_i,\quad b_{n+1}=b_n+\eta y_i \implies \hat w_{n+1}=\hat w_{n}+\eta y_i\hat x_i


感知机收敛性

采用梯度下降法,极小化损失函数,若样本集线性可分,最终损失函数值为0(模型收敛)。

若模型 w ^ o p t \hat w_{opt} w ^ o p t = 1 ||\hat w_{opt}||=1 ,能完全正确划分数据集,模型参数初值 w ^ 0 = 0 \hat w_0=0 ,令 γ = min x y ( w ^ o p t x ^ ) \gamma=\min_{x} y(\hat w_{opt}\cdot \hat x) R = max x x R=\max_x ||x|| ,则
w ^ k w ^ o p t = w ^ k 1 w ^ o p t + η y i x ^ i w ^ o p t w ^ k 1 w ^ o p t + η γ . . . k η γ \hat w_{k}\cdot \hat w_{opt}=\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat x_i \cdot \hat w_{opt}\geq \hat w_{k-1}\cdot \hat w_{opt}+\eta\gamma\geq ...\geq k\eta\gamma

w ^ k 2 = w ^ k 1 2 + 2 η y i w ^ k 1 x ^ i + x ^ i 2 w ^ k 1 2 + η 2 R 2 . . . k η 2 R 2 ||\hat w_k||^2=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+||\hat x_i||^2\leq ||\hat w_{k-1}||^2+\eta^2R^2\leq...\leq k\eta^2R^2
因此
k η γ w ^ k w ^ o p t w ^ k   w ^ o p t = w ^ k k η R       k ( R γ ) 2 k\eta\gamma \leq \hat w_k\cdot \hat w_{opt}\leq||\hat w_k||\ ||\hat w_{opt}||=||\hat w_k||\leq \sqrt{k}\eta R \implies k \leq \left(\frac{R}{\gamma}\right)^2
可见,感知机最多迭代k次收敛,感知机模型 f ( x ) = sign ( w x + b ) f( x)=\text{sign}( w\cdot x+b) 的训练过程

  • 初始化 w w b b
  • 选取任意错分样本 ( x i , y i ) ( x_i,y_i) ,更新参数(使超平面超错分样本移动),重复此步骤直至无错分样本;

对偶学习

感知机对偶学习的基本思想是,将原参数表示为实例线性组合的形式,通过求解其系数进而求解原参数。由随机梯度下降的更新公式可知,若 参数初值为0,最终模型参数为
w = i n i η y i x i = i α i y i x i w=\sum_i n_i\eta y_i x_i=\sum_i\alpha_iy_i x_i

式中, n i n_i 为样本 ( x i , y i ) ( x_i, y_i) 被误分类的次数。

感知机模型 f ( x ) = sign ( i α i y i x i x + b ) f( x)=\text{sign}\big(\sum_i\alpha_iy_i x_i\cdot x+b\big) ,对偶学习过程:

  • 初始化 α \alpha b b 均为0;
  • 选取任意错分样本 ( x i , y i ) ( x_i,y_i) ,更新参数,重复此步骤直至无错分样本;
    α i = α i + η , b = b + η y i \alpha_{i}=\alpha_i+\eta,\quad b=b+\eta y_i

对偶形式中,训练实例仅以內积形式出现,计算和存储方便。

猜你喜欢

转载自blog.csdn.net/sinat_34072381/article/details/105842124
今日推荐