机器学习原理及公式推导（二）感知机

1、感知机模型

假设输入空间是 $X\in R^n$ ，输出空间是 $Y=\{+1,-1\}$ ，由输入空间到输出空间的如下函数称为感知机。
$f(x)=sign(w\cdot x+b)$ 其中 $w\in R^n$ ， $b\in R$ ， $sign$ 是符号函数，即
$sign(x)=\left\{\begin{array}{rcl}+1,&{x\ge0}\\-1,&{x\le0} \end{array} \right.$ 感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)，即函数集合 $\{f|f(x)=w\cdot x+b\}$ 。

2、感知机学习策略

模型已经明确了，根据上一章的知识，接下来要确定一个能够评价模型好坏的策略，即定义一个损失函数。经验损失函数一个很自然的选择是误分类点的个数，但这样的损失函数不是参数 $w$ 与 $b$ 的连续可导函数，不易优化。因此采用误分类点到超平面 $S$ 的总距离作为损失函数，这里的超平面指的是 $w\cdot x+b=0$ 对应于特征空间 $R^n$ 的超平面。
首先写出输入空间 $R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离
$\frac{1}{||w||}|w\cdot x_0+b|$ 其中 $||w||$ 是 $w$ 的 $L_2$ 范数。
对于误分类的数据 $(x_i,y_i)$ 来说，若 $y_i=1$ ，则 $w\cdot x_i+b<0$ ；若 $y_i=-1$ ，则 $w\cdot x_i+b>0$ 。所以对误分类点来说， $-y_i(w\cdot x_i+b)>0$ 恒成立。
这样，误分类点 $(x_i,y_i)$ 到超平面 $S$ 的距离是
$-\frac{1}{||w||}y_i(w\cdot x_i+b)$ 那么设误分类点集合为 $M$ ，所有误分类点到超平面 $S$ 的总距离为
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$ 不考虑分母 $||w||$ ，就能得到感知机的损失函数定义为
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$ 为什么可以不考虑 $||w||$ ？因为感知机是误分类点驱动的，而 $||w||$ 不影响 $-y_i(w\cdot x_i+b)$ 的符号，即不影响点 $(x_i,y_i)$ 的分类正误；用梯度下降法求解时， $||w||$ 也不会影响梯度的方向。

3、感知机学习算法

给定一个训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 求参数 $w$ 与 $b$ ，使其为以下损失函数极小化问题的解
$\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$ 具体采用随机梯度下降法(stochastic gradient descent)进行求解。首先任意选取一个超平面 $w_0$ 、 $b_0$ ，若误分类点集合 $M$ 是固定的，则损失函数 $L(w,b)$ 的梯度为
$\nabla_wL(w,b)=-\sum_{x_i\in M}y_ix_i$ $\nabla_bL(w,b)=-\sum_{x_i\in M}y_i$ 随机梯度下降就是随机选取一个误分类点 $(x_i,y_i)$ ，对 $w$ 与 $b$ 进行更新
$w\gets w+\eta y_ix_i$ $b\gets b+\eta y_i$ 式中 $\eta$ 是步长，即学习率(learning rate)，这样不断迭代可以使 $L(w,b)$ 不断减小，直到为0。
现在考虑算法的收敛性，为便于推导将 $b$ 并入权重向量 $w$ 中，记作 $\hat w=(w^T,b)^T$ ，同时将输入向量加进常数1，记作 $\hat x=(x^T,1)^T$ 。这样， $\hat x\in R^{n+1}$ ， $\hat w\in R^{n+1}$ ，有 $\hat w\cdot \hat x=w\cdot x+b$ 。
可以引出下述 $Novikoff$ 定理：
设训练数据集 $T$ 是线性可分的，则
（1）存在满足条件 $||\hat w_{opt}||=1$ 的超平面 $\hat w_{opt}\cdot \hat x=0$ 将训练数据集完全正确分开；且存在 $\gamma>0$ ，对所有 $i=1,2,\cdots,N$
$y_i(\hat w_{opt}\cdot \hat x_i)\ge\gamma$ （2）令 $R=\max_{1\le i\le N}||\hat x_i||$ ，则感知机算法的误分类次数 $k$ 满足不等式
$k\le(\frac{R}{\gamma})^2$ 定理（1）的证明比较简单，由于训练数据集线性可分，存在超平面可将训练数据集完全正确分开，取此超平面为 $\hat w_{opt}\cdot \hat x_i=0$ ，由于对有限的 $i=1,2,\cdots,N$ 均有
$y_i(\hat w_{opt}\cdot \hat x_i)>0$ 所以存在
$\gamma=\min_i\{y_i(\hat w_{opt}\cdot \hat x_i)\}$ 使得
$y_i(\hat w_{opt}\cdot \hat x_i)\ge\gamma$ 针对定理（2），令 $\hat w_{k-1}$ 是第 $k$ 个误分类实例之前的扩充权重向量，若 $(x_i,y_i)$ 是被 $\hat w_{k-1}$ 误分类的数据，则 $w$ 、 $b$ 的更新是
$\hat w_k\gets \hat w_{k-1}+\eta y_i\hat x_i$ 这里省略了从 $w$ 推至 $\hat w$ 的过程，不过比较简单。下面推导两个不等式中的第一个：
$\hat w_k\cdot \hat w_{opt}=(\hat w_{k-1}+\eta y_i\hat x_i)\cdot \hat w_{opt}=\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat w_{opt}\cdot\hat x_i$ 根据定理（1）， $y_i\hat w_{opt}\cdot\hat x_i\ge\gamma$ ，因此上式可得
$\hat w_k\cdot\hat w_{opt}\ge\hat w_{k-1}\cdot\hat w_{opt}+\eta\gamma\ge\cdots\ge k\eta\gamma$ 又由于 $||\hat w_k\cdot\hat w_{opt}||\le||\hat w_k||\cdot||\hat w_{opt}||$ ，而 $||\hat w_{opt}||=1$ ，即
$||\hat w_k||\ge k\eta\gamma$ 接着推导第二个不等式：
$||\hat w_k||^2=||\hat w_{k-1}+\eta y_i\hat x_i||^2=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+\eta^2y_i^2||\hat x_i||^2$ 由于 $(x_i,y_i)$ 是 $\hat w_{k-1}$ 的误分类点，因此
$y_i\hat w_{k-1}\cdot\hat x_i<0$ 又由于 $y_i\in \{1,-1\}$ ，即 $y_i^2=1$ ，可得到下面的不等式
$||\hat w_k||^2\le||\hat w_{k-1}||^2+\eta^2||\hat x_i||^2\le||\hat w_{k-1}||^2+\eta^2R^2\le\cdots\le k\eta^2 R^2$ 将得到的两个不等式结合，可得
$k\eta\gamma\le||\hat w_k||\le\sqrt{k}\eta R$ 即
$k\le(\frac{R}{\gamma})^2$ 定理表明，误分类的次数 $k$ 是有上界的，即经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。
上述使用随机梯度下降法进行迭代的方法属于原始形式，其与对偶形式相对应。对误分类点 $(x_i,y_i)$ ，原始形式通过
$w\gets w+\eta y_ix_i$ $b\gets b+\eta y_i$ 逐步修改 $w$ 与 $b$ ，可假设初值 $w_0$ 与 $b_0$ 均为0，这样最后学习到的 $w$ 与 $b$ 可以表示为
$w=\sum_{i=1}^N\alpha_iy_ix_i$ $b=\sum_{i=1}^N\alpha_iy_i$ 式中， $\alpha_i=n_i\eta$ ， $n_i$ 为第 $i$ 个点由于误分类而进行更新的次数。
因此感知机模型可以写作
$f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+\sum_{j=1}^N\alpha_jy_j)$ 在迭代过程中，选取数据 $(x_i,y_i)$ ，若 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+\sum_{j=1}^N\alpha_jy_j)\le0$ ，按如下规则更新 $\alpha_i$ 即可
$\alpha_i\gets\alpha_i+\eta$ 在对偶形式的感知机模型中，训练实例仅以内积的形式出现，即式中的 $x_j\cdot x$ ，可以预先将训练集的内积计算出来，以矩阵的形式存储，这个矩阵就是 $Gram$ 矩阵
$G=[x_i\cdot x_j]_{N\times N}$