感知机模型

感知机判别模型
$f( x)=\text{sign}( w\cdot x+b), \quad\text{sign}(x)= \begin{cases} +1,&x\geq0\\ -1,&x\lt0 \end{cases}$
其中 $w$ 称为权值向量， $b$ 称为权值偏置。

感知机损失函数

选取误分类点到超平面的总距离作为损失函数，M表示误分类样本集，则:
$L( w,b) = \sum_{( x,y)\in M}\frac{1}{|| w||}| w\cdot x+b|= -\frac{1}{|| w||}\sum_{( x,y)\in M}y( w\cdot x+b)\simeq-\sum_{( x,y)\in M}y( w\cdot x+b)$
误分类样本始终满足 $-y( w\cdot x+b)>0$ 。

感知机训练

误分类样本集为M，目标函数
$L( w,b)=-\sum_{x\in M}y( w\cdot x+b)=-\sum_xy(\hat w\cdot\hat x),\quad \hat w=(w, 1),\ \hat x=( x,1)^\top$
使用随机梯度下降，得更新公式
$w_{n+1} = w_n + \eta y_i x_i,\quad b_{n+1}=b_n+\eta y_i \implies \hat w_{n+1}=\hat w_{n}+\eta y_i\hat x_i$

感知机收敛性

采用梯度下降法，极小化损失函数，若样本集线性可分，最终损失函数值为0（模型收敛）。

若模型 $\hat w_{opt}$ ， $||\hat w_{opt}||=1$ ，能完全正确划分数据集，模型参数初值 $\hat w_0=0$ ，令 $\gamma=\min_{x} y(\hat w_{opt}\cdot \hat x)$ ， $R=\max_x ||x||$ ，则
$\hat w_{k}\cdot \hat w_{opt}=\hat w_{k-1}\cdot \hat w_{opt}+\eta y_i\hat x_i \cdot \hat w_{opt}\geq \hat w_{k-1}\cdot \hat w_{opt}+\eta\gamma\geq ...\geq k\eta\gamma$
且
$||\hat w_k||^2=||\hat w_{k-1}||^2+2\eta y_i\hat w_{k-1}\cdot\hat x_i+||\hat x_i||^2\leq ||\hat w_{k-1}||^2+\eta^2R^2\leq...\leq k\eta^2R^2$
因此
$k\eta\gamma \leq \hat w_k\cdot \hat w_{opt}\leq||\hat w_k||\ ||\hat w_{opt}||=||\hat w_k||\leq \sqrt{k}\eta R \implies k \leq \left(\frac{R}{\gamma}\right)^2$
可见，感知机最多迭代k次收敛，感知机模型 $f( x)=\text{sign}( w\cdot x+b)$ 的训练过程

初始化 $w$ 和 $b$ ；
选取任意错分样本 $( x_i,y_i)$ ，更新参数（使超平面超错分样本移动），重复此步骤直至无错分样本；

对偶学习

感知机对偶学习的基本思想是，将原参数表示为实例线性组合的形式，通过求解其系数进而求解原参数。由随机梯度下降的更新公式可知，若 参数初值为0，最终模型参数为
$w=\sum_i n_i\eta y_i x_i=\sum_i\alpha_iy_i x_i$

式中， $n_i$ 为样本 $( x_i, y_i)$ 被误分类的次数。

感知机模型 $f( x)=\text{sign}\big(\sum_i\alpha_iy_i x_i\cdot x+b\big)$ ，对偶学习过程：

初始化 $\alpha$ 和 $b$ 均为0;
选取任意错分样本 $( x_i,y_i)$ ，更新参数，重复此步骤直至无错分样本；
$\alpha_{i}=\alpha_i+\eta,\quad b=b+\eta y_i$

对偶形式中，训练实例仅以內积形式出现，计算和存储方便。