第二章感知机

2.1 感知机模型
感知机的定义(定义2.1):由输入空间(特征空间)的点,到输出空间的如下函数:
F(x)=sign(wx+b)
称为感知机。其中w,x为感知机模型函数,w是权值,b是偏置。
从几何意义上来理解,线性方程:wx+b 对应于特征空间的一个超平面S,其中w是超平面的法向量,b是截距。 2.2感知机学习策略
数据集的线性可分(定义2.2):如果存在一个超平面S将正实例与负实例完全正确的划分到超平面的两侧,则称数据集T为线性可分数据集。
2.2.2感知机学习策略
需要找出一个超平面,即确定w,b的值即可,需要确定一个学习策略,即定义一个(经验)损失函数并将损失函数极小化。
误分点数的总数是一个损失函数,但是他与w,b无关,不可以确定出w,b的值。所以另外一个思路用误分点到超平面的距离是一个很好的损失函数,损失函数为:
L(w,b)=-Σy(wx+b), 其中L(w,b)是w,b的可导函数。
2.3感知机学习算法
求参数w,b,使其为损失函数极小化问题的解:minL(w,b)=-Σy(wx+b)
具体采用梯度下降法可以求得该解。
感知机学习算法的原始形式(算法2.1)
(1)选取初值w0,b0
(2)在训练集中选取数据(xi,yi)
(3)如果yi(wxi+b)<=0
(4)转至(2),直至训练集中没有误分点。
2.3.2算法的收敛性
对于线性可分的训练集,经过有限次的迭代可以得到一个将训练集数据完全正确划分的分离超平面及感知机模型。
Novikoff定理(定理2.1)
2.3.3感知机学习的对偶形式
感知机学习算法的对偶形式(算法2.2)
感知机模型F(x)=sign(Σαyx.x+b),
(1)α=0,b=0
(2)在训练集中选取数据(x,y)
(3)如果y(Σαyx.x+b)≤0
α=α+γ
b=b+γy
(4)转至(2)直到没有误分点
对偶形式中的内积可以先计算出来,以矩阵的形式表示,这就是Gram矩阵:G=[xi.xj]

猜你喜欢

转载自blog.csdn.net/qq_37994598/article/details/83823791