李航统计学习感知机阅读笔记

感知机学习笔记

感知机模型

感知机是二类分类的线性分类模型,其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机将输入空间划分为正负两个超平面。
由输入空间到输出空间的函数为： $f(x)=sign(w·x+b)$

$sign$ 是符号函数

s i g n (x) = {\begin{cases} + 1, x \geq 0 \\ - 1, x < 0 \end{cases}

$sign(x)= \begin{cases} +1, \quad x \geq 0 \\ -1, \quad x<0 \end{cases}$

其假设空间定义： $\{f|f(x)=w·x+b\}$

线性方程： $w·x+b=0$ 为特征空间 $\textbf{R}^n$ 的一个超平面 $\textbf{S}$ 。 $w$ 是超平面的一个法向量。 $b$ 是超平面的截距。
超平面 $\textbf{S}$ 被称为分离超平面（seperating hyperplane）。

感知机学习策略

数据集的线性可分性

给定一个数据集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$\textit{T}=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

其中， $x_i\in\textit{X}=\textbf{R}^n, y_i\in\textit{Y}=\{+1,-1\}, i=1,2,...,N$ ，如果存在超平面 $S$

w \cdot x + b = 0

$w·x+b=0$

能够将数据集的正实例和负实例点完全正确地划分在平面的两侧,则称数据集 $T$ 为线性可分数据集（linearly seperable data set）。

感知学习策略

追求损失函数极小化。
由点到平面距离公式：

\frac{1}{| | w | |} | w \cdot x_{0} + b |

$\frac{1}{||w||}|w·x_0+b|$

得到误分类点到平面的距离：

- \frac{1}{| | w | |} y_{i} | w \cdot x_{i} + b |

$-\frac{1}{||w||}y_i|w·x_i+b|$

损失函数

在不考虑常数项下，模型的损失函数为：

L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w·x_i+b)$ (1)

其中 $M$ 为误分类点的集合。显然，损失函数 $L(w,b)$ 是非负的，如果没有误分类点，损失函数值为0.

感知机学习算法

求损失函数极小值的问题，求参数 $w,b$ 。

感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降法（stochastic gradient descent）.首先选取一个超平面 $w_0b_0$ ，然后用梯度下降法不断地极小化目标函数 $(1)$
假设误分类点的集合 $M$ 是固定的，那么损失函数 $L(w,b)$ 的梯度由公式

\nabla_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i}

$\nabla_w{L(w,b)}=-\sum_{x_i \in M}y_ix_i$

\nabla_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i}

$\nabla_b{L(w,b)}=-\sum_{x_i \in M}y_i$

给出。

随机给出一个误分类点 $(x_i,y_i)$ ，对 $w,b$ 进行更新：

w \leftarrow w + η y_{i} x_{i}

$w\gets w+\eta y_ix_i$

b \leftarrow b + η y_{i}

$b\gets b+\eta y_i$ (2)

式中 $\eta (0<\eta \leq 1)$ 是步长，统计学习中又称为学习率（learing rate）。这样，通过迭代，可以期待损失函数 $L(w,b)$ 不断减小,直到为0.

算法的收敛性

对于线性可分数据集，感知机算法原始形式收敛。

感知机学习算法的对偶形式

基本思想：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合形式。通过求解系数而求得 $w$ 和 $b$ .

由梯度函数 $(2)$ ,假设初值 $w_0=0,b_0=0$ ， $\alpha_i=n_i\eta_i$ ，最后学到的w,b可以表示为

w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}

$w=\sum_{i=1}^{N}\alpha_i y_ix_i$

b = \sum_{i = 1}^{N} α_{i} y_{i}

$b=\sum_{i=1}^{N}\alpha_i y_i$

感知机模型：

f (x) = s i g n (\sum_{j = 1}^{N} α_{i} y_{i} x_{i} \cdot x + b)

$f(x)=sign\left(\sum_{j=1}^{N}\alpha_i y_ix_i·x+b\right)$

由 $\alpha \gets 0, b \gets 0$ 开始，选取数据集 $(y_i,x_i)$ ,如果 $y_i \left(\sum_{j=1}^{N}\alpha_i y_ix_i·x+b\right) \leq 0$ ,则

α_{i} \leftarrow α_{i} + η

$\alpha_i \gets \alpha_i + \eta$

b \leftarrow b + η y_{i}

$b \gets b + \eta y_i$
直到没有误分类数据。

对偶形式中训练实例仅以内积的形式出现.为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是所谓的Gram矩阵(Gram matrix)

G = {[\begin{matrix} x_{i} \cdot y_{i} \end{matrix}]}_{N \times N}

$G= \begin{bmatrix} x_i·y_i \end{bmatrix} _{N \times N}$

与原始形式一样，感知机学习算法的对偶形式迭代是收敛的，存在多个解。