2.1 感知机模型

定义 2.1 （感知机） 假设输入空间（特征空间）是 X ，输出空间是 y = { -1 , +1} 。
输入 x 表示实例的特征向量，对应于输入空间的点，输出 y 表示实例的类别，由输入空间到输出空间的如下函数：
在这里插入图片描述
称为感知机，其中, w 和 b 为感知机模型参数， w ∈ R ⁿ 叫做权值（weight）或权值向量（weight vector）, b ∈ R 叫做偏置（bias）， w • x 表示 w 和 x 的内积， sign 是符号函数，即

感知机是一种线性分类模型，属于判别模型，感知机模型的假设空间是定义在特征空间中的所有线性分类模型（linear classification model）或线性分类器(linear classifier)，即函数集合{ f | f(x) = w • x +b }.
感知机有如下几何解释：线性方程：

对应于特征空间 R ⁿ 中的一个超平面 S ,其中 w 是超平面的法向量， b 是超平面的截距，这个超平面将特征空间划分为两个部分，位于两部分的点（特征向量）分别被分为正、负两类，因此，超平面 S 称为分离超平面（separating hyperplane），如下图所示。
在这里插入图片描述
感知机学习，由训练数据集（实例的特征向量及类别）

其中，x_I ∈ Rⁿ , y ∈ У= {+1 ， -1} ， i = 1,2…,N ，求得感知机模型，即求得模型参数 w ,b, 感知机预测，通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别。

2.2 感知机学习策略

2.2.1 数据集的线性可分性
给定一个数据集，如果存在某个超平面 S w • x +b
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧，即对所有 y_i = + 1 的实例 i ,有 w • x_i + b > 0 , 对所有的 y_i = -1的实例 i ,有 w • x_i + b < 0, 则称数据集 T 为线性可分数据集（linearly separable data set）；否则，称数据集 T 线性不可分。

2.2.2 感知机学习策略
假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面，为了找出这样的超平面，即确定感知机模型参数 w , b ，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。

损失函数的一个自然选择是误分类点的总数，但是，这样的损失函数不是参数 w, b 的连续可导函数，不宜优化。

另一个选择： 误分类的点到超平面 S 的总距离，这是感知机所采用的，为此，首先写出输入空间 Rⁿ 中任一点 x ₀ 到超平面 S 的距离：
在这里插入图片描述
这里， || w || 是 w 的 L₂ 范数。

其次，对于误分类的数据（x_i , y_i）来说，
在这里插入图片描述
成立，因为当 w • x_i + b > 0 时， y_i = -1 , 而当 w • x_i + b < 0 是， y _i = +1 ，因此，误分类点 x _i 到超平面 S 的距离是：

这样，假设超平面 S 的误分类点集合为 M ，那么所有误分类点到超平面 S 的总距离为：
在这里插入图片描述
不考虑
就可以得到感知机学习的损失函数。
其中 M 为误分类点的集合，这个损失函数就是感知机学习的经验风险函数。

显然，损失函数L(w,b) 是非负的，如果没有误分类点，损失函数值是 0 ，而且，误分类点越少，误分类点离超平面越近，损失函数值就越小，一个特定的样本点的损失函数：在误分类时是参数 w ，b 的线性函数，在正确分类时是 0 ，因此，给定训练数据集 T，损失函数L(w,b) 是 w ,b 的连续可导函数。

2.3 感知机学习算法

感知机学习问题转化为求解损失函数式（2.4）的最优化问题，最优化方法是随机梯度下降法，本节序数感知机学习的具体算法，包括原始形式和对偶形式，并证明在训练数据线性可分条件下感知机学习算法的收敛性。

感知机学习算法的原始形式
感知机学习算法是对以下最优化问题的算法，给定一个训练数据集，求参数 w, b ，使其为以下损失函数极小化问题的解：在这里插入图片描述
其中M为误分类点的集合。

感知机学习算法是误分类驱动的，具体采用随机梯度下降法（stochastic gradient descent）,首先，任意选取一个超平面 w₀, b₀ ，然后用梯度下降法不断地极小化目标函数，极小化过程不是一次使 M 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

假设误分类点集合 M 是固定的，那么损失函数L(w,b) 的梯度由：
在这里插入图片描述
给出。
随机选一个误分类点（x_i, y_I），对 w, b 进行更新：

式中 η（0 < η <= 1 ）是步长，在统计学习中又称为学习率（learning rate），这样，通过迭代可以期待损失函数L(w, b)不断减小，直到为 0 ，综上所述，得到如下算法：
在这里插入图片描述

算法解释：
当一个实例点被误分类，即位于分离超平面的错误一侧时，即调整 w , b 的值，使分离超平面向该误分类点的一侧移动，以较少该误分类点与超平吗的距离，直至超平面越过该误分类点使其被正确分类。

算法2.1 是感知机学习的基本算法，其正实例是 x₁ = (3,3) ^T , x₂ = (4,3) ^T , 负实例点是 x₃ = （1,1）^T ，试用感知机学习算法的原始形式求感知机模型 f(x) = sign(w • x_i + b), 这里， w = (w⁽¹⁾, w ⁽²⁾ )^T ， x = (x⁽¹⁾, x ⁽²⁾ )^T。
在这里插入图片描述

表2.1 例 2.1 求解的迭代过程 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200113172020875.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0NTg3ODU1,size_16,color_FFFFFF,t_70)

感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同。比如换个顺序取误分类点，那么得到的超分离平面会不一样。

2.3.2 算法的收敛性

现在证明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

改进：
为了便于叙述与推导，将偏置 b 并入权重 w ,记作（w^T , b）^T , 同样也将输入向量加以扩充，加进常数 1 ，记作 (x^T , 1)^T 。

定理 2.1 （Novikoff）设训练数据集 T = { (x₁ ,y ₁),…（x_N,y_N）} 是线性可分的， x_i = R ⁿ, y _i = {-1, +1 }，则
（1）存在满足条件 || w_opt|| = 1 的超平面 w_opt • x + b_opt = 0将训练数据集完全正确分开，且存在 У > 0 , 对所有 i = 1,2 …， N
在这里插入图片描述
（2）令 R = max|| x_i || ，则感知机算法2.1 在训练数据集上的误分类次数 k 满足不等式

证明：
略（后补）

定理表明，误分类的次数 k 是由上界的，经过有限次搜索就可以找到将训练数据完全正确分开的分离超平面，也就是说，当训练数据集线性可分的时候，感知机学习算法原始形式迭代是收敛的。

但是例2.1 说明，感知机学习算法存在许多解，这些解既依赖于初值的选择，也依赖于迭代过程误分类点的选择顺序，为了得到唯一的超平面，需要对分离超平面增加约束条件，这就是第 7 章要僵讲述的线性支持向量机的想法。 ==当训练集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡。

2.3.3 感知机学习算法的对偶形式

略

芒骁

发布了202 篇原创文章 · 获赞 4 · 访问量 4202

私信关注

2.2 感知机学习策略

2.3 感知机学习算法

2.3.2 算法的收敛性

2.3.3 感知机学习算法的对偶形式

猜你喜欢