感知机算法笔记

感知机（Perceptron）是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别（-1和+1），属于判别模型。其目标是求出将训练数据进行线性划分的分离超平面，基于误分类的损失函数，利用梯度下降法对损失函数进行极小化求得感知机模型。其优点是简单易于实现，分为对偶形式与原始形式。

1. 感知机模型

感知机函数：
$f(x) = sign(w \cdot x +b)$
其中， $w$ 和 $b$ 为感知机模型参数， $w \in R^n$ 叫作权值（weight)或权值限量， $b \in R$ 叫作偏置（bias）， $w \cdot x$ 表示 $w$ 和 $x$ 的内积， $sign$ 是符号函数，即
$sign(x) = \begin{cases} +1， x \geq0 \\\\ -1，x<0 \end{cases}$
感知机的几何解释： $w \cdot x+b=0$ 。对应于特征空间 $R^n$ 的一个超平面的法向量，b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面S称为分离超平面。
这里写图片描述
感知机的学习，就是通过学习求得参数 $w,b$ ，并对新的输入数据给出其对应的输出类别，即计算结果大于0分类到+1，小于0分类到-1。

2. 感知机损失函数

2.1 定义

由于采用误分类点的总数作为损失函数时，其不是参数 $w,b$ 连续可导函数，不易优化。因此采用的是误分类点到超平面S的总距离。
输入空间 $R^n$ 中任一点 $x_{0}$ 到超平面S的距离为 $\frac{1}{\|w\|}y_{i}(w \cdot x_{i} +b)$ ，这里 $\|w\|$ 是 $w$ 的 $L_{2}$ 范数。

$w \cdot x_{i} + b \gt 0$ 时， $y_{i} = -1$
$w \cdot x_{i} + b \lt 0$ 时， $y_{i} = +1$

因此，误分类点 $x_{i}$ 到超平面S的距离是 $-\frac{1}{\|w\|}y_{i}(w \cdot x_{i} +b)$ ，这样，假设超平面S的误分类点集合为M，那么所有误分类点到超平面S的总距离为
$-\frac{1}{\|w\|}\sum_{x_{i}\in M}y_{i}(w \cdot x_{i} + b)$
不考虑 $\frac{1}{\|w\|}$ ，就得到感知机学习的损失函数。
给定训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{N},y_{N})\}$ ，其中， $x_{i} \in X = R^n$ ， $y_{i} \in Y = \{+1,-1\}$ ， $i = 1,2,\cdots,N$ 。感知机学习的损失函数定义为
$L(w,b) = - \sum_{x_{i} \in M}y_{i}(w \cdot x_{i} + b)$

2.2 梯度下降

在介绍感知机的损失函数优化前，先简单说下梯度下降法。

**梯度下降法（Gradient descent）**是一个一阶最优化算法，那通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

批量梯度下降 Batch Gradient Descent
每次都更新全部样本
随机梯度下降 Stochastic Gradient Descent
每次只随机选择其中一个样本进行更新

2.3 优化

任意选取一个超平面 $w_{0},b_{0}$ ，利用随机梯度下降法不断地极小化目标函数（一次随机选取一个误分类点使其梯度下降），这样通过迭代可以期待损失函数L(w,b)不断减小，直到为0。
假设误分类点集合 $M$ 是固定的，那么损失函数L(w,b)的梯度由以下给出
$\bigtriangledown_{w}L(w,b) = - \sum\limits_{x_{i}\in M}y_{i}x_{i}$
$\bigtriangledown_{b}L(w,b) = - \sum\limits_{x_{i}\in M}y_{i}$
随机选取一个误分类点 $(x_{i},y_{i})$ ，对w,b进行更新：
$w\gets w +\eta y_{i}x_{i}$

$b\gets b +\eta y_{i}$

式中 $\eta(0<\eta \leq 1)$ 是步长，又称为学习率(learning rate).

因此，也得到了感知机的算法。

3. 感知机算法

3.1 原始形式

选取初始值 $w_{0},b_{0}$ ，选择 $(x_{i},y_{i})$ ，计算 $y_{i}(w\cdot x_{i} +b)$ 的值，当一个实例点被误分类时，即该值小于等于0，对参数 $w,b$ 进行更新，直到训练集中没有误分类点。
输入：训练数据集 $T = \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{N},y_{N})\}$ ，其中 $x_{i} \in X = R^{n}$ ， $y_{i} \in Y = \{-1,+1\}$ ， $i = 1,2,\cdots, N$ ；学习率 $\eta(0<\eta\leq1)$ ；
输出： $w,b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$ .

选取初值 $w_{0},b_{0}$
在训练集中选取数据 $(x_{i},y_{j})$
如果 $y_{i}(w\cdot x_{i} + b) \leq 0$
$w\gets w +\eta y_{i}x_{i}$
$b\gets b +\eta y_{i}$
转至2，直至训练集中没有误分类点。

3.2 收敛证明

3.2.1 定理

设训练集 $T = \{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\}$ 是线性可分的，其中 $x_{i}\in X= R^n$ ， $y_{i}\in Y= \{+1,-1\}$ ， $i=1,2,\cdots,N$ ，则

存在满足条件 $\Vert\hat{w}_{opt} \Vert=1$ 的超平面 $\hat{w}_{opt}\cdot \hat{x} = w_{opt}\cdot x+b_{opt}=0$ 将训练集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,\cdots,N$
$y_{i}(\hat{w}_{opt}\cdot \hat{x_{i}} )= y_{i}(w_{opt}\cdot x_{i}+b_{opt}) \geq \gamma$
令R= $\max\limits_{1\leq i \leq N}\Vert\hat{x_{i}}\Vert$ ，则感知机算法在训练集上的误分类次数k满足不等式

$k <=( \frac{R}{\gamma})^2$

3.2.2 证明过程

由于训练集线性可分，存在超平面可将训练集完全正确分开，取此超平面为
$\hat{w}_{opt} \cdot \hat{x} = \hat{w}_{opt} \cdot x_{i}+ b_{opt} = 0$
使 $\|\hat{w}_{opt}\| = 1$
因为完全分类正确
$y_{i}(\hat{w}_{opt} \cdot \hat{x}) = y_{i}(\hat{w}_{opt} \cdot x_{i}+ b_{opt}) \gt 0$
所以存在
$\gamma = \min_{i}\{y_{i}(\hat{w}_{opt} \cdot x_{i}+ b_{opt})\}$
使得
$y_{i}(\hat{w}_{opt} \cdot \hat{x}) = y_{i}(\hat{w}_{opt} \cdot x+ b_{opt}) \ge \gamma$
$\hat{w_{0}} = 0$ ， $w_{k-1}$ ：第 $k$ 个误分类点之前的扩充权重向量 $w_{k-1}=(w_{k-1}^T,b_{k-1})^T$
第 $k$ 个误分类点 $(x_{i},y_{i})$ ，则
$-y_{i}(w_{k-1} \cdot x_{i} + b_{k-1}) \gt 0$
$y_{i}(w_{k-1} \cdot x_{i} + b_{k-1}) \le 0$
误分类点后的更新：
$w_{k}\gets w_{k-1} +\eta y_{i}x_{i}$
$b_{k}\gets b_{k-1} +\eta y_{i}$
即
$\hat{w_{k}} = \hat{w_{k-1}} +\eta y_{i}\hat{x_{i}}$
(1) 由 $y_{i}(\hat{w_{opt}} \cdot \hat{x_{i}}) = y_{i}(w_{opt}\cdot x_{i}+b_{opt}) \geq \gamma$ 和 $y_{i}(\hat{w_{opt}} \cdot \hat{x_{i}}) = y_{i}(w_{k-1}\cdot x_{i})+b_{k-1} \leq 0$ 得，
$\hat{w_{k}} \cdot \hat{w_{opt}} = \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta y_{i} (\hat{w_{opt}}\hat{w_{i}})$
$\ge \hat{w_{k-1}} \cdot \hat{w_{opt}} + \eta \gamma$
$\ge \hat{w_{k-2}} \cdot \hat{w_{opt}} +2 \eta \gamma$
$\ge \cdots$
$\ge k \eta \gamma$
所以， $\hat{w_{k}} \cdot \hat{w_{opt}} \ge k \eta \gamma$

(2) 由 $y_{i}(\hat{w_{opt}} \cdot \hat{x_{i}}) = y_{i}(w_{k-1}\cdot x_{i})+b_{k-1} \leq 0$ 和 $\hat{w_{k}} = \hat{w_{k-1}} + \eta y_{i}x_{i}$ 得，
$\|\hat{w_{k}}\|^2 =\|\hat{w_{k-1}}\|^2 + 2 \eta y_{i}\hat{w_{k-1}}x_{i} + \eta^2\|\hat{x_{i}}\|^2$
$\le \|\hat{w_{k-1}}\|^2 + \eta^2\|\hat{x_{i}}\|^2$
$\le \|\hat{w_{k-1}}\|^2 + \eta^2 R^2$
$\le \|\hat{w_{k-2}}\|^2 + 2\eta^2 R^2$
$\le \cdots$
$\le k\eta^2 R^2$
(3) 由(1) $\hat{w_{k}} \cdot \hat{w_{opt}} \ge k \eta \gamma$ 和 $\|\hat{w_{k}}\|^2 \le k\eta^2 R^2$ ，以及 $z^{T}u = \|z\| \cdot \|u\| cos \theta \le \|z\| \cdot \|u\|$ 得，
$k \eta \gamma \le \hat{w_{k}} \cdot \hat{w_{opt}} \le \|\hat{w_{k}}\|\|\hat{w_{opt}}\| \le \sqrt{k} \eta R$
因此得，
$k = (\frac{R}{\gamma})^2$

因此，误分类的次数k是有上限的，经过有限次数搜索可以找到将训练数据完全正确分开的分离超平面，即当训练集线性可分时，感知机学习算法原始形式迭代是收敛的。

3.3 对偶形式

假设样本点 $(x_{i},y_{i})$ 在更新过程中被使用了 $n_{i}$ 次，因此从原始形式的学习过程可以得到，最后学习到的w和b可以分别表示为： $w = \sum\limits_{i=1}^Nn_{i}\eta y_{i}x_{i}$ $b = \sum\limits_{i=1}^Nn_{i}\eta y_{i}$
$n_{i}$ 的含义：如果 $n_{i}$ 的值越大，说明这个样本点经常被误分。而离超平面很近的点，就很容易被误分。因为超平面稍微移动一点，这个点就可能从正变为负，或者从负变为正。
将上述 $w$ 和 $b$ 的公式代入原始形式的感知机模型中，可得：

$f(x) = sign(w \cdot x + b) = sign(\sum\limits_{j=1}^Nn_{j}\eta y_{j}x_{j} \cdot x + \sum\limits_{j=1}^Nn_{j}\eta y_{j})$
此时，学习的目标就不再是 $w$ 和 $b$ ，而是 $n_{i}$ ， $i=1,2,\cdots,N$ 。

相应地，训练过程变为：

初始时 $\forall n_{i}=0$
在训练集中选取数据 $(x_{i},y_{i})$
如果 $y_{i}(\sum\limits_{j=1}^Nn_{j}\eta y_{j}x_{j} \cdot x_{i}+ \sum\limits_{j=1}^Nn_{j}\eta y_{j}) <=0$ ，则更新： $n_{i} \gets n_{i} + 1$
转至2直至没有误分类数据

通过计算，对偶形式和原始形式的结果一致，从对偶形式的公式中可以看出，样本点的特征向量以内积的形式存在于感知机对偶形式的训练算法中，因此如果事先计算好所有的内积（也即Gram矩阵），就可以大大加快计算速度。

Garm矩阵计算方式：
gram矩阵计算方式

4. 感知机缺点及改进

在前面我们证明了在线性可分的情况下，PLA是可以停下来并正确分类，但对于非线性可分的情况，实际上并不存在这样的一条线 $(w_{f})$ ，那么之前的推导并不成立，PLA不一定会停下来。所以，PLA虽然实现简单，但也有缺点：
这里写图片描述
在非线性可分的情况下，我们可以容忍有错误点，取错误点的个数最少时的权重w：
非线性情况PLA
而对于以上的问题，难以求解。但我们可以在每次迭代的时候，计算该直线下得到错误分类点的个数，并与之前的个数作比较，然后取个数较小的直线作为我们当前选择的分类直线。直到迭代次数完成后，选取个数最少的直线对应的w，即为我们最终想要得到的权重值。下图为改进后的pocket PLA算法：
改进后的PLA

5. sklearn应用

# perceptron 
# max_iter: the number of epochs, eta0: learning rate eta 
from sklearn.linear_model import Perceptron 
ppn = Perceptron(max_iter=40, eta0=0.1, random_state=1)
ppn.fit(X_train_std, y_train)

详细代码见github

6. reference

李航《统计学习方法》
Ng cs229 notes
台大机器学习基石 Learning to Answer Yes/NO
Python Machine Learning Second Edition
浅析感知机（一）–模型与学习策略
如何理解感知机学习算法的对偶形式？

本文同步发布在我的github.io