感知机（Perceptron）和多层感知机（Multi-Layer Perceptron）

AI-第五期-DarkRabbit

之前并未做过笔记，所以这篇文章是对以下内容回顾，对应：

第六周：（02）感知机
第六周：（03）多层感知机和反向传播
维基百科（en）“Backpropagation” 词条
《机器学习》（西瓜书）：第5章神经网络 - 5.1 神经元模型
《机器学习》（西瓜书）：第5章神经网络 - 5.2 感知机与多层网络
《机器学习》（西瓜书）：第5章神经网络 - 5.3 误差逆传播算法

依然公式比较多，CSDN的app会显示不正常（乱码），请用其它任意方式浏览。

weighted sum： $logit = \omega_0 x_0 + \omega_1 x_1 + \cdots + \omega_n x_n$
其中 $\omega_0 = b \text{(bias，偏置)} , \, x_0 = 1$
记 $\boldsymbol{\omega} = [ \omega_0, \omega_1, \cdots, \omega_n ], \boldsymbol{x} = [ x_0, x_1, x_2, \cdots, x_n ]$ 则 $logit = \boldsymbol{\omega} \cdot \boldsymbol{x}$
step function： $output = f(logit), \quad f(x) = \begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}$

1.3 逻辑运算

感知器可以进行简单的逻辑运算（不包含异或）。

可以运用真值表进行运算。

逻辑与：

真值表：

$x_1$	$x_2$	output
1	1	1
1	0	0
0	1	0
0	0	0

由真值表和 step function 得出的不等式方程组：

${\begin{cases} 1 \times ω_{1} + 1 \times ω_{2} + b > 0 \\ 1 \times ω_{1} + 0 \times ω_{2} + b \leq 0 \\ 0 \times ω_{1} + 1 \times ω_{2} + b \leq 0 \\ 0 \times ω_{1} + 0 \times ω_{2} + b \leq 0 \end{cases} ⟹ {\begin{cases} b > - (ω_{1} + ω_{2}) \\ b \leq - ω_{1} \\ b \leq - ω_{2} \\ b \leq 0 \end{cases} ⟹ - (ω_{1} + ω_{2}) < b \leq min (- ω_{1}, - ω_{2}, 0)$ $\begin{cases} 1 \times \omega_1 + 1 \times \omega_2 + b > 0 \\ 1 \times \omega_1 + 0 \times \omega_2 + b \leq 0 \\ 0 \times \omega_1 + 1 \times \omega_2 + b \leq 0 \\ 0 \times \omega_1 + 0 \times \omega_2 + b \leq 0 \\ \end{cases} \implies \begin{cases} b > -(\omega_1 + \omega_2) \\ b \leq -\omega_1 \\ b \leq -\omega_2 \\ b \leq 0 \\ \end{cases} \implies -(\omega_1 + \omega_2) < b \leq \min(-\omega_1, -\omega_2, 0)$
解是一些区间，而其中最常用的解：

${\begin{cases} ω_{1} = 2 \\ ω_{2} = 2 \\ b = - 3 \end{cases} o r {\begin{cases} ω_{1} = 1 \\ ω_{2} = 1 \\ b = - 1 \end{cases}$ $\begin{cases} \omega_1 = 2 \\ \omega_2 = 2 \\ b = -3 \end{cases} \quad or \quad \begin{cases} \omega_1 = 1 \\ \omega_2 = 1 \\ b = -1 \end{cases}$

逻辑或

同逻辑与，最常用的解：

$x_{1} = 2, x_{2} = 2, b = - 1$ $x_1 = 2, x_2 = 2, b = -1$
逻辑非：

同逻辑与，最常用的解：

$x_{1} = - 2, b = 1$ $x_1 = -2, b = 1$
逻辑与非：

同逻辑与，最常用的解：

$x_{1} = - 2, x_{2} = - 2, b = 3$ $x_1 = -2, x_2 = -2, b = 3$

1.4 学习规则

感知器类似与线性分类器。具体求解方式参考损失函数（loss/cost function）与梯度下降。

需要注意的是，感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元（functional neuron）。

若两类模式是线性可分的的，即存在一个线性超平面能将它们分开，则感知机的学习过程一定会收敛（converge）；否则学习过程将发生震荡（fluctuation）

1.5 感知器的局限

仅能做0-1输出
仅能处理线性分类问题（无法处理XOR问题）

多层感知机的出现，解决了这些问题。

2 多层感知机（Multi-Layer Perceptron）

2.1 一些区别（different）

多层感知机在输入层与输出层中间，还多了一层隐层（hidden layer）；
隐层中也拥有激活函数的功能神经元；
每层神经元与下一层神经元全互连；
神经元之间不存在同层连接，也不存在跨层连接；
更多的激活函数。

2.2 一些激活函数（activation function）

阶跃函数（step function）：

$s g n (x) = {\begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}$ $sgn(x) = \begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}$
S型函数（sigmoid function），有时也称为挤压函数（squashing function）：

$s i g m o i d (x) = \frac{1}{1 + e^{- x}}$ $sigmoid(x) = \frac{1}{1 + e^{-x}}$
双曲正切函数（tanh function）：

$t a n h (x) = \frac{\sinh x}{\cosh x} = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}$ $tanh(x) = \frac{\sinh{x}}{\cosh{x}} = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
线性整流函数（Rectified Linear Unit, ReLU）

$R e L U (x) = {\begin{cases} x & x > 0 \\ 0 & x \leq 0 \end{cases}$ $ReLU(x) = \begin{cases} x & x > 0 \\ 0 & x \leq 0 \end{cases}$

激活函数能够进行非线性的工作了。

2.3 反向传播算法（backpropagation, BP）

当权重 $\omega$ 权重需要调整时，需要进行反向传播。

反向传播的计算是从网络的输出层开始，向输入方向逐层计算梯度并更新权重，与前馈运算正好相反。

假设一个输出神经元，平方误差函数为：

E = \frac{1}{2} (t - y)^{2}

$E = \frac{1}{2} (t - y)^2$
其中， t 为训练样本输出值， y 为真值。

对于层中每个神经元 $j$ ，它的输出 $o_j$ 为：

o_{j} = s i g m o i d ({n e t}_{j}) = s i g m o i d (\sum_{k = 1}^{n} ω_{k j} o_{k} + b_{k j})

$o_j = sigmoid({net}_j) = sigmoid(\sum_{k = 1}^{n} \omega_{kj} o_k + b_{kj})$
其中，

k

$k$ 为前一层神经元数目，

o_{k}

$o_k$ 为前一层每个神经元输出，

b_{k j}

$b_{kj}$ 为偏置 bias，如果是第一个输入层，那么

o_{k}

$o_k$ 就是

x_{k}

$x_k$ 。

寻找误差的导数：权重偏导数使用了2次链式法则。

\frac{\partial E}{\partial ω_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {n e t}_{j}} \frac{\partial {n e t}_{j}}{\partial ω_{i j}}

$\frac{\partial E}{\partial \omega_{ij}} = \frac{\partial E}{\partial o_j} \frac{\partial o_j}{\partial {net}_j} \frac{\partial {net}_j}{\partial \omega_{ij}}$

其中：

\begin{array}{rccl} \frac{\partial {n e t}_{j}}{\partial ω_{i j}} & = & \frac{\partial}{\partial ω_{i j}} (\sum_{k = 1}^{n} ω_{k j} o_{k}) = \frac{\partial}{\partial ω_{i j}} ω_{i j} o_{i} & = o_{i} \\ \frac{\partial o_{j}}{\partial {n e t}_{j}} & = & \frac{\partial}{\partial {n e t}_{j}} s i g m o i d ({n e t}_{j}) & = y_{j} (1 - y_{j}) \\ \frac{\partial E}{\partial o_{j}} & = & \frac{\partial E}{\partial y} = \frac{\partial}{\partial y} (\frac{1}{2} (t_{j} - y_{j})^{2}) & = y_{j} - t_{j} \end{array}

$\begin{array}{rccl} \frac{\partial {net}_j}{\partial \omega_{ij}} &= & \frac{\partial}{\partial \omega_{ij}} \left( \sum_{k = 1}^{n} \omega_{kj} o_k \right) = \frac{\partial}{\partial \omega_{ij}} \omega_{ij} o_i &= o_i \\[2ex] \frac{\partial o_j}{\partial {net}_j} &= & \frac{\partial}{\partial {net}_j} sigmoid({net}_j) &= y_j (1 - y_j) \\[2ex] \frac{\partial E}{\partial o_j} &= & \frac{\partial E}{\partial y} =\frac{\partial}{\partial y} \left( \frac{1}{2} (t_j - y_j)^2 \right) &= y_j - t_j \end{array}$

则：

\frac{\partial E}{\partial ω_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {n e t}_{j}} \frac{\partial {n e t}_{j}}{\partial ω_{i j}} = (y_{j} - t_{j}) \times y_{j} (1 - y_{j}) \times o_{i}

$\frac{\partial E}{\partial \omega_{ij}} = \frac{\partial E}{\partial o_j} \frac{\partial o_j}{\partial {net}_j} \frac{\partial {net}_j}{\partial \omega_{ij}} = (y_j - t_j) \times y_j (1 - y_j) \times o_i$

接下来我们定义

δ_{j} = \frac{\partial E}{\partial {n e t}_{j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial {n e t}_{j}} = (y_{j} - t_{j}) \times y_{j} (1 - y_{j})

$\delta_j = \frac{\partial E}{\partial {net}_j} = \frac{\partial E}{\partial o_j} \frac{\partial o_j}{\partial {net}_j} = (y_j - t_j) \times y_j (1 - y_j)$

则：

\frac{\partial E}{\partial ω_{i j}} = δ_{j} \times o_{i}

$\frac{\partial E}{\partial \omega_{ij}} = \delta_j \times o_i$

更新 $\omega_{ij}$ 使用梯度下降，还必须选择学习率（learning rate）， $\eta > 0$ 。

如果 $\frac{\partial E}{\partial \omega_{ij}} > 0$ ，增加 $\omega_{ij}$ ，增加 $E$ ；反之增加 $\omega_{ij}$ ，减小 $E$ 。

新的 $\Delta \omega_{ij}$ 被加在权重上，并乘以学习率、梯度与 $-1$ ，来确保每次 $\omega_{ij}$ 改变都是在减少 $E$ 。

则每层权重改变（Delta Rule）（增量规则）（德尔塔定律）：

Δ ω_{i j} = - η \frac{\partial E}{\partial ω_{i j}} = - η δ_{j} o_{i}

$\Delta \omega_{ij} = -\eta \frac{\partial E}{\partial \omega_{ij}} = -\eta \delta_j o_i$

相同的，对于每层偏置量 $bias$ ，我们有：

\frac{\partial E}{\partial b_{i j}} = δ_{i}

$\frac{\partial E}{\partial b_{ij}} = \delta_i$

AI（007） - 笔记 - 感知机（Perceptron）和多层感知机（Multi-Layer Perceptron）

感知机（Perceptron）和多层感知机（Multi-Layer Perceptron）

目录

1 感知机（Perceptron）

1.1 过程

1.2 前馈计算