第二章总结 感知机模型

感知机(perceptron)是二分类的线性分类模型,属于判别模型

2.1 感知机模型

f ( x ) = s i g n ( w x + b )

sign是符号函数

感知机的解释:线性方程 wx + b = 0 对应于特征向量 R n 中的一个超平面,w(法向量) 和 b(截距) 这些参数确定这个超平面——分离超平面,这个超平面将特征空间划分为两个部分。

2.2 感知机学习的策略

2.2.1 数据集线性可分性(前提)

2.2.2 学习策略

感知机采用的损失函数是误分类点到超平面的总距离。

d = 1 | | w | | | w x 0 + b |

对于误分类点
y i ( w i + b ) > 0

误分类点到超平面的距离是
1 | | w | | y i ( w i + b )

所有误分类点到超平面距离
1 | | w | | x i M y i ( w i + b )

不考虑
1 | | w | | ,感知机学习的损失函数为

L ( w , b ) = x i M y i ( w i x i + b )

2.3 感知机学习算法(原始形式和对偶形式)

2.3.1 原始形式

对损失函数进行最优化

min L ( w , b ) = x i M y i ( w i x i + b )

使用随机梯度下降
w L ( w , b ) = x i M y i x i

b L ( w , b ) = x i M y i

参数更新
w w + η y i x i

b b + η y i

η 为学习率。

2.3.2 对偶形式

实际上,可以从原始形式看出,参数更新的过程就是对 w b 修改的过程,设需要修改 n 次,则 w b 的增量分别为 a i y i x i a i y i ,这里 a i = n i η i

w = w + i = 1 N a i y i x i

b = b + i = 1 N a i y i

对偶算法的过程:

对每个数据实例 ( x i , y i ) ,如果 y i ( j = 1 N a j y j x j x i + b ) 0

a i a i + η

b b + η y i

其中 x j x i ,可以预先计算用Gram矩阵存储,也可以使用核方法代替,使之成为高维可分的核感知机。

猜你喜欢

转载自blog.csdn.net/machinerandy/article/details/79543288