机器学习(周志华)——神经网络模型(一)

概要

本篇博客主要讲解了BP神经网络模型的层次结构，并在机器学习(周志华)——神经网络模型(二)中讲解BP算法和BGD、SGD和MBGD三种梯度下降算法。对于BP神经网络算法的手写代码请移步：利用BP神经网络对语音特征信号数据集进行分类

神经元模型

神经元模型是是组成神经网络模型的最基本单位。在生物神经网络领域内，神经元之间相互相连，当一个神经元兴奋时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个阈值，那么它就会被激活，即兴奋起来，向其他神经元发送化学物质。1943 年，McCulloch 和 Pitts 将上述生物学中情形抽象为如下图所示的简单模型，这就是一直沿用至今的 M-P 神经元模型。神经元接收来自 $n$ 个其他神经元传递过来的输入信号 $x$ ，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值 $\sum\nolimits_{i=1}^{n}{{{w}_{i}}{{x}_{i}}}$ 将与神经元的阈值项 $\theta$ 进行线性组合，然后通过激活函数 $f$ 对得线性组合进行映射产生神经元的输出 $y=f\left( \sum\nolimits_{i=1}^{n}{{{w}_{i}}{{x}_{i}}}+\theta \right)$
这里写图片描述

神经网络

将多个神经元模型按一定的层次结构连接起来，就能得到神经网络的模型。事实上，从计算机学科角度来看，我们可以不考虑神经网络是否真的模拟了生物神经网络，只需将一个神经网络模型看成一个包含了许多超参数的数学模型，这个模型有若干个激活函数组成。
这里写图片描述
下面本文将对3层的神经网络进行具体介绍。上图给出了基本的神经网模型结构示意图。3层的神经网络模型是由输入层、隐藏层和输出层构成的。其中输入层与输出层神经元个数与输入数据密切相关。因此首先对输入到神经网络数据集进行相关说明。对于给定输入数据集表示如下：

\begin{aligned} (1) & D = {(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), \dots, (x^{(m)}, y^{(m)})} $ \end{aligned}

$\begin{align} &D=\left\{ \left( {{x}^{\left( 1 \right)}},{{y}^{\left( 1 \right)}} \right),\left( {{x}^{\left( 2 \right)}},{{y}^{\left( 2 \right)}} \right),\cdots ,\left( {{x}^{\left( m \right)}},{{y}^{\left( m \right)}} \right) \right\}$ \end{align}$
其中

m

$m$ 代表输入数据集大小，

x_{i} \in R^{d}, y_{i} \in R^{l}

${{x}_{i}}\in {{\mathbb{R}}^{d}},{{y}_{i}}\in {{\mathbb{R}}^{l}}$ ，即输入神经元的输入是一个

1 \times d

$1\times d$ 维矩阵或者

d

$d$ 维向量，其表示为：

\begin{aligned} (2) & x^{(i)} = (x_{1}^{(i)}, x_{2}^{(i)}, \dots, x_{d}^{(i)}) \end{aligned}

$\begin{align} &{{x}^{\left( i \right)}}=\left( x_{1}^{\left( i \right)},x_{2}^{\left( i \right)},\cdots ,x_{d}^{\left( i \right)} \right) \end{align}$
输出神经元的输出是一个

1 \times l

$1\times l$ 维矩阵或

l

$l$ 维向量，其表示为：

\begin{aligned} (3) & y^{(i)} = (y_{1}^{(i)}, y_{2}^{(i)}, \dots, y_{l}^{(i)}) \end{aligned}

$\begin{align} &{{y}^{\left( i \right)}}=\left( y_{1}^{\left( i \right)},y_{2}^{\left( i \right)},\cdots ,y_{l}^{\left( i \right)} \right) \end{align}$
即输入层神经元个数为输入数据的维数、输出层神经元个数为输入数据真实结果的维数。在以下相关介绍中，本文假定有

d

$d$ 个输入层神经元，

q

$q$ 个隐藏层神经元，

l

$l$ 个输出层神经元。隐藏层的每个神经元都含有一个阈值项

θ_{i}

${{\theta }_{i}}$ ，故隐藏层的阈值项可以表示为：

\begin{aligned} (4) & θ = (θ_{1}, θ_{2}, \dots, θ_{q}) \end{aligned}

$\begin{align} &\theta \text{=}\left( {{\theta }_{1}},{{\theta }_{2}},\cdots ,{{\theta }_{q}} \right) \end{align}$
同理，输出层的阈值项可以表示为：

\begin{aligned} (5) & γ = (γ_{1}, γ_{2}, \dots, γ_{l}) \end{aligned}

$\begin{align} &\gamma \text{=}\left( {{\gamma }_{1}},{{\gamma }_{2}},\cdots ,{{\gamma }_{l}} \right) \end{align}$
同时，输入层的每个神经元与隐含层的每个神经元之间有一个连接权重，记作

v_{i j}

${{v}_{ij}}$ ，表示第

i

$i$ 个输入神经元与第

j

$j$ 个隐藏层神经元之间的权重。故输入层与隐含层之间的连接权重可以表示为：

\begin{aligned} (6) & v = {(v^{(1)}, v^{(2)}, \dots, v^{(d)})}^{T} \end{aligned}

$\begin{align} &v={{\left( {{v}^{(1)}},{{v}^{(2)}},\cdots ,{{v}^{(d)}} \right)}^{T}} \end{align}$
其中

v^{(i)}

${{v}^{\left( i \right)}}$ 是个

1 \times q

$1\times q$ 维向量，即

v^{(i)}

${{v}^{\left( i \right)}}$ 可以表示为：

\begin{aligned} (7) & v^{(i)} = (v_{1}^{(i)}, v_{2}^{(i)}, \dots, v_{q}^{(i)}) \end{aligned}

$\begin{align} &{{v}^{\left( i \right)}}\text{=}\left( v_{1}^{\left( i \right)},v_{2}^{\left( i \right)},\cdots ,v_{q}^{\left( i \right)} \right) \end{align}$
故输入层与隐藏层之间的权重可以也可以表示为一个的

d \times q

$d\times q$ 矩阵：

\begin{aligned} (8) & v = (\begin{matrix} v_{1}^{(1)} & v_{2}^{(1)} & \dots & v_{q}^{(1)} \\ ⋮ & ⋱ & ⋮ & ⋮ \\ ⋮ & ⋮ & ⋱ & ⋮ \\ v_{1}^{(d)} & v_{2}^{(d)} & \dots & v_{q}^{(d)} \end{matrix}) \end{aligned}

$\begin{align} &v=\left( \begin{matrix}v_{1}^{\left( 1 \right)} & v_{2}^{\left( 1 \right)} & \cdots & v_{q}^{\left( 1 \right)} \\\vdots & \ddots & \vdots & \vdots \\\vdots & \vdots & \ddots & \vdots \\v_{1}^{\left( d \right)} & v_{2}^{\left( d \right)} & \cdots & v_{q}^{\left( d \right)} \\\end{matrix} \right) \end{align}$
同理隐含层与输出层之间的连接权重可以表示

q \times l

$q\times l$ 矩阵为：

\begin{aligned} (9) & w = {(w^{(1)}, w^{(2)}, \dots, w^{(q)})}^{T} = (\begin{matrix} w_{1}^{(1)} & w_{2}^{(1)} & \dots & w_{l}^{(1)} \\ ⋮ & ⋱ & ⋮ \\ ⋮ & ⋱ & ⋮ \\ w_{1}^{(q)} & w_{2}^{(q)} & \dots & w_{l}^{(q)} \end{matrix}) \end{aligned}

$\begin{align} &w={{\left( {{w}^{\left( 1 \right)}},{{w}^{\left( 2 \right)}},\cdots ,{{w}^{\left( q \right)}} \right)}^{T}}=\left( \begin{matrix}w_{1}^{\left( 1 \right)} & w_{2}^{\left( 1 \right)} & \cdots & w_{l}^{\left( 1 \right)} \\\vdots & \ddots & {} & \vdots \\\vdots & {} & \ddots & \vdots \\ w_{1}^{\left( q \right)} & w_{2}^{\left( q \right)} & \cdots & w_{l}^{\left( q \right)} \\\end{matrix} \right) \end{align}$
其中

w^{(i)}

${{w}^{\left( i \right)}}$ 可以表示为：

\begin{aligned} (10) & w^{(i)} = (w_{1}^{(i)}, w_{2}^{(i)}, \dots, w_{l}^{(i)}) \end{aligned}

$\begin{align} &{{w}^{\left( i \right)}}\text{=}\left( w_{1}^{\left( i \right)},w_{2}^{\left( i \right)},\cdots ,w_{l}^{\left( i \right)} \right) \end{align}$
可以计算出第

h

$h$ 个隐含层神经元的输入为：

\begin{aligned} (11) & α^{(h)} = \sum_{i = 1}^{d} v_{i}^{(h)} x^{(i)} \end{aligned}

$\begin{align} &{{\alpha }^{\left( h \right)}}=\sum\limits_{i=1}^{d}{v_{i}^{\left( h \right)}{{x}^{\left( i \right)}}} \end{align}$
那么第

h

$h$ 个隐含层神经元的输出为：

\begin{aligned} (12) & b^{(h)} = f (α^{(h)} + θ) \end{aligned}

$\begin{align} &{{b}^{\left( h \right)}}=f\left( {{\alpha }^{\left( h \right)}}+\theta \right) \end{align}$
其中：

\begin{aligned} (13) & f (x) = \frac{1}{1 + e^{- x}} \\ (14) & f^{'} (x) = f (x) [1 - f (x)] \end{aligned}

$\begin{align} &f\left( x \right)=\frac{1}{1+{{e}^{-x}}}\\ &{f}'(x)=f(x)\left[ 1-f(x) \right] \end{align}$
同理，第

j

$j$ 个输出层神经元的输入为：

\begin{aligned} (15) & β^{(j)} = \sum_{i = 1}^{l} w_{i}^{(j)} b^{(j)} \end{aligned}

$\begin{align} &{{\beta }^{\left( j \right)}}=\sum\limits_{i=1}^{l}{w_{i}^{\left( j \right)}{{b}^{\left( j \right)}}} \end{align}$
第

j

$j$ 个输出层神经元的输出为：

\begin{aligned} (16) & {\hat{y}}^{(j)} = f (β^{(j)} + γ) \end{aligned}

$\begin{align} &{{\hat{y}}^{\left( j \right)}}=f\left( {{\beta }^{\left( j \right)}}+\gamma \right) \end{align}$