感知机模型
感知机判别模型
f(x)=sign(w⋅x+b),sign(x)={+1,−1,x≥0x<0
其中
w称为权值向量,
b称为权值偏置。
感知机损失函数
选取误分类点到超平面的总距离作为损失函数,M表示误分类样本集,则:
L(w,b)=(x,y)∈M∑∣∣w∣∣1∣w⋅x+b∣=−∣∣w∣∣1(x,y)∈M∑y(w⋅x+b)≃−(x,y)∈M∑y(w⋅x+b)
误分类样本始终满足
−y(w⋅x+b)>0。
感知机训练
误分类样本集为M,目标函数
L(w,b)=−x∈M∑y(w⋅x+b)=−x∑y(w^⋅x^),w^=(w,1), x^=(x,1)⊤
使用随机梯度下降,得更新公式
wn+1=wn+ηyixi,bn+1=bn+ηyi⟹w^n+1=w^n+ηyix^i
感知机收敛性
采用梯度下降法,极小化损失函数,若样本集线性可分,最终损失函数值为0(模型收敛)。
若模型
w^opt,
∣∣w^opt∣∣=1,能完全正确划分数据集,模型参数初值
w^0=0,令
γ=minxy(w^opt⋅x^),
R=maxx∣∣x∣∣,则
w^k⋅w^opt=w^k−1⋅w^opt+ηyix^i⋅w^opt≥w^k−1⋅w^opt+ηγ≥...≥kηγ
且
∣∣w^k∣∣2=∣∣w^k−1∣∣2+2ηyiw^k−1⋅x^i+∣∣x^i∣∣2≤∣∣w^k−1∣∣2+η2R2≤...≤kη2R2
因此
kηγ≤w^k⋅w^opt≤∣∣w^k∣∣ ∣∣w^opt∣∣=∣∣w^k∣∣≤k
ηR⟹k≤(γR)2
可见,感知机最多迭代k次收敛,感知机模型
f(x)=sign(w⋅x+b)的训练过程
- 初始化
w和
b;
- 选取任意错分样本
(xi,yi),更新参数(使超平面超错分样本移动),重复此步骤直至无错分样本;
对偶学习
感知机对偶学习的基本思想是,将原参数表示为实例线性组合的形式,通过求解其系数进而求解原参数。由随机梯度下降的更新公式可知,若 参数初值为0,最终模型参数为
w=i∑niηyixi=i∑αiyixi
式中,
ni为样本
(xi,yi)被误分类的次数。
感知机模型
f(x)=sign(∑iαiyixi⋅x+b),对偶学习过程:
- 初始化
α和
b均为0;
- 选取任意错分样本
(xi,yi),更新参数,重复此步骤直至无错分样本;
αi=αi+η,b=b+ηyi
对偶形式中,训练实例仅以內积形式出现,计算和存储方便。