Andrew Ng机器学习入门学习笔记（四）之神经网络（一）

一.神经网络的优势

对于复杂的非线性分类问题，当特征变量个数 $n$ 很大时，用逻辑回归时 $S型函数g(\theta^Tx)中的\theta^Tx$ 如果用二次多项式表示，则二次项数目很多，约为 $n^2$ ，计算复杂度达到 $o(n^2)$ ；如果用三次多项式表示，则三次项数目更多，复杂度达 $o(n^3)$ 。

而神经网络能很好的解决上面那种复杂的非线性分类问题。

二.神经网络的模型

1.神经元的模型

这里写图片描述

图中橘黄色部分即为一个神经元， $x_1,x_2,x_3$ 是其输入， $h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ ，我们称这是一个以S型函数作为激励函数的人工神经元。

2.神经网络的模型

神经网络是一组神经元的组合，如下：

这里写图片描述

神经网络的模型分为输入层，隐藏层和输出层，其中隐藏层可能有多层。每个层次包含一个或多个单元。如上图中输入层包括 $x_0,x_1,x_2,x_3$ 四个单元，其中 $x_0=1$ 是偏置单元。上图的隐藏层只有一层，加上偏置单元一共有四个单元。上图的输出层只有一个单元。

三.神经网络的相关参数及前向传播计算

$a_i^{(j)}$ ——第 $j$ 层第 $i$ 个神经元的激励

$\Theta^{(j)}$ ——权重矩阵，控制着从第 $j$ 层到第 $（j+1）$ 层的函数映射。(为了以示区别，这里是大写的 $\Theta$ )

具体映射关系表现为：

a (2) 1 = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2 + Θ (1) 13 x 3) = g (z (2) 1)

$a_1^{(2)}=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2+\Theta_{13}^{(1)}x_3)=g(z_1^{(2)})$

a (2) 2 = g (Θ (1) 20 x 0 + Θ (1) 21 x 1 + Θ (1) 22 x 2 + Θ (1) 23 x 3) = g (z (2) 2)

$a_2^{(2)}=g(\Theta_{20}^{(1)}x_0+\Theta_{21}^{(1)}x_1+\Theta_{22}^{(1)}x_2+\Theta_{23}^{(1)}x_3)=g(z_2^{(2)})$

a (2) 3 = g (Θ (1) 30 x 0 + Θ (1) 31 x 1 + Θ (1) 32 x 2 + Θ (1) 33 x 3) = g (z (2) 3)

$a_3^{(2)}=g(\Theta_{30}^{(1)}x_0+\Theta_{31}^{(1)}x_1+\Theta_{32}^{(1)}x_2+\Theta_{33}^{(1)}x_3)=g(z_3^{(2)})$

h Θ (x) = a (3) 1 = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$h_\Theta(x)=a_1^{(3)}=g(\Theta_{10}^{(2)}a_0^{(2)}+\Theta_{11}^{(2)}a_1^{(2)}+\Theta_{12}^{(2)}a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$
如果神经网络第

j $j$ 层有

sj $s_j$ 个单元，第

(j+1) $(j+1)$ 层有

sj+1 $s_{j+1}$ 个单元，则

Θ(j) $\Theta^{(j)}$ 就是一个

sj+1∗(sj+1) $s_{j+1}*(s_j+1)$ 维的矩阵。

如上图， $\Theta^{(1)}$ 是3*4的矩阵， $\Theta^{(2)}$ 是1*4的矩阵。

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 0 x 1 x 2 x 3 ⎤ ⎦ ⎥ ⎥ ⎥ ， z (2) = ⎡ ⎣ ⎢ ⎢ ⎢ z (2) 1 z (2) 2 z (2) 3 ⎤ ⎦ ⎥ ⎥ ⎥ \in R 3

$x=\begin{bmatrix}x_0\\x_1\\x_2\\x_3\end{bmatrix}，z^{(2)}=\begin{bmatrix}z_1^{(2)}\\z_2^{(2)}\\z_3^{(2)}\end{bmatrix}\in\mathbb{R}^3$
根据上面的映射关系以及

a(1)=x $a^{(1)}=x$ ，可知

z (2) = Θ (1) x = Θ (1) a (1)

$z^{(2)}=\Theta^{(1)}x=\Theta^{(1)}a^{(1)}$

a (2) = g (z (2)) \in R 3

$a^{(2)}=g(z^{(2)})\in\mathbb{R}^3$
给第二层增加偏置单元

a(2)0=1 $a_0^{(2)}=1$ 之后，

a(2)∈R4 $a^{(2)}\in\mathbb{R}^4$ ，同理

z (3) = Θ (2) a (2)

$z^{(3)}=\Theta^{(2)}a^{(2)}$

h Θ (x) = a (3) = g (z (3))

$h_\Theta(x)=a^{(3)}=g(z^{(3)})$ 这种从输入层的激励开始向前传播到隐藏层，再传播到输出层的行为叫做前向传播(Forward Propagation)。

看了这么多，神经网络到底在做什么呢？

对于上面神经网络的模型那张图，如果不看输入层，只看后面两层，则

h Θ (x) = g (Θ (2) 10 a (2) 0 + Θ (2) 11 a (2) 1 + Θ (2) 12 a (2) 2 + Θ (2) 13 a (2) 3)

$h_\Theta(x)=g(\Theta_{10}^{(2)}a_0^{(2)}+\Theta_{11}^{(2)}a_1^{(2)}+\Theta_{12}^{(2)}a_2^{(2)}+\Theta_{13}^{(2)}a_3^{(2)})$ 如果忽略一些上下标，则这看上去很像逻辑回归。

神经网络所做的事情很像逻辑回归，但它不是使用 $x_0,x_1,x_2,x_3$ 作为输入特征来训练逻辑回归，而是通过另一组参数 $\Theta^{(1)}$ 将 $x_0,x_1,x_2,x_3$ 映射为隐藏层的 $a_1^{(2)}，a_2^{(2)}，a_3^{(2)}$ 作为输入特征。

四.利用神经网络解决复杂的非线性问题

1.首先用神经网络实现几个较为简单的例子：

①AND（与运算），其中 $x_1,x_2\in\{0,1\}$ ， $y=x_1$ AND $x_2$

按下图给神经网络分配权重，

这里写图片描述

h Θ (x) = a (2) = g (z (2)) = g (Θ (1) a (1)) = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2) = g (- 30 + 20 x 1 + 20 x 2)

$h_\Theta(x)=a^{(2)}=g(z^{(2)})=g(\Theta^{(1)}a^{(1)})=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2)=g(-30+20x_1+20x_2)$

又由于S型函数 $g(z)$ 有在 $z>4.6$ 时越来越接近1，在 $z<-4.6$ 时越来越接近0的趋势，如下图

这里写图片描述

故我们可以得到神经网络的输出和输入的关系：

$x_1$	$x_2$	$h_\Theta(x)$
0	0	$g(-30)≈0$
0	1	$g(-10)≈0$
1	0	$g(-10)≈0$
1	1	$g(10)≈1$

可以看到， $h_\Theta(x)≈x_1$ AND $x_2$ ，该神经网络实现了与运算。

②OR（或运算），其中 $x_1,x_2\in\{0,1\}$ ， $y=x_1$ OR $x_2$

按下图给神经网络分配权重，

这里写图片描述

h Θ (x) = a (2) = g (z (2)) = g (Θ (1) a (1)) = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2) = g (- 10 + 20 x 1 + 20 x 2)

$h_\Theta(x)=a^{(2)}=g(z^{(2)})=g(\Theta^{(1)}a^{(1)})=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2)=g(-10+20x_1+20x_2)$

故我们可以得到神经网络的输出和输入的关系：

$x_1$	$x_2$	$h_\Theta(x)$
0	0	$g(-10)≈0$
0	1	$g(10)≈1$
1	0	$g(10)≈1$
1	1	$g(30)≈1$

可以看到， $h_\Theta(x)≈x_1$ OR $x_2$ ，该神经网络实现了或运算。

③NOT（逻辑非），其中 $x_1\in\{0,1\}$ ， $y=$ NOT $x_1$

按下图给神经网络分配权重，

这里写图片描述

h Θ (x) = a (2) = g (z (2)) = g (Θ (1) a (1)) = g (Θ (1) 10 x 0 + Θ (1) 11 x 1) = g (10 - 20 x 1)

$h_\Theta(x)=a^{(2)}=g(z^{(2)})=g(\Theta^{(1)}a^{(1)})=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1)=g(10-20x_1)$
故我们可以得到神经网络的输出和输入的关系：

$x_1$	$h_\Theta(x)$
0	$g(10)≈1$
1	$g(-10)≈0$

可以看到， $h_\Theta(x)≈$ NOT $x_1$ ，该神经网络实现了或运算。

2.用神经网络实现稍复杂的函数

①(NOT $x_1$ ) AND (NOT $x_2$ )

按下图给神经网络分配权重，

这里写图片描述

h Θ (x) = a (2) = g (z (2)) = g (Θ (1) a (1)) = g (Θ (1) 10 x 0 + Θ (1) 11 x 1 + Θ (1) 12 x 2) = g (10 - 20 x 1 - 20 x 2)

$h_\Theta(x)=a^{(2)}=g(z^{(2)})=g(\Theta^{(1)}a^{(1)})=g(\Theta_{10}^{(1)}x_0+\Theta_{11}^{(1)}x_1+\Theta_{12}^{(1)}x_2)=g(10-20x_1-20x_2)$
故我们可以得到神经网络的输出和输入的关系：

$x_1$	$x_2$	$h_\Theta(x)$
0	0	$g(10)≈1$
0	1	$g(-10)≈0$
1	0	$g(-10)≈0$
1	1	$g(-30)≈0$

可以看到，该神经网络实现了(NOT $x_1$ ) AND (NOT $x_2$ )

②XNOR（同或运算）

按下图给神经网络分配权重，

这里写图片描述

仔细观察，可知

$a_1^{(2)}=x_1$ AND $x_2$ ，即红色部分实现的是AND；
$a_2^{(2)}=$ (NOT $x_1$ ) AND (NOT $x_2$ )，即蓝色部分实现的是(NOT $x_1$ ) AND (NOT $x_2$ )；
$h_\Theta(x)=a_1^{(3)}=a_1^{(2)}$ OR $a_2^{(2)}$ ，即绿色部分实现的是OR；

我们可以得到神经网络的输出和输入的关系：

这里写图片描述

该神经网络确实实现了 $h_\Theta(x)=x_1$ XNOR $x_2$ 。

通过这个例子我们可以看到，复杂函数可以通过一些简单函数的组合来实现。

比如神经网络的第二层可以计算输入层特征变量的函数；第三层可以以第二层为基础，计算更复杂的函数；第四层可以以第三层为基础计算比第三层还要复杂的函数，以此类推。神经网络运用更深的层数可以计算更复杂的函数，使其作为特征传递给最后一层的逻辑回归分类器，更准确地预测分类结果。

五.神经网络在多类别分类中的应用

在多类别分类中，我们的输出并不是一个数，而是一个向量，例如有一个三类别分类问题，我们要识别一个物体是行人，小汽车，摩托车还是卡车，则神经网络的模型可以如下图：

这里写图片描述

最后一层的输出层相当于有4个逻辑回归的分类器， $h_\Theta(x)\in\mathbb{R}^4$ ，更具体的说

$h_\Theta(x)=\begin{bmatrix}1\\0\\0\\0\end{bmatrix}$ 代表预测结果为行人； $h_\Theta(x)=\begin{bmatrix}0\\1\\0\\0\end{bmatrix}$ 代表预测结果为小汽车；

$h_\Theta(x)=\begin{bmatrix}0\\0\\1\\0\end{bmatrix}$ 代表预测结果为摩托车； $h_\Theta(x)=\begin{bmatrix}0\\0\\0\\1\end{bmatrix}$ 代表预测结果为卡车。

训练数据集是 $(x^{(1)},y^{(1)})，(x^{(2)},y^{(2)})，\cdots，(x^{(m)},y^{(m)})$ ，

$y^{(i)}$ 一定是 $\begin{bmatrix}1\\0\\0\\0\end{bmatrix}，\begin{bmatrix}0\\1\\0\\0\end{bmatrix}，\begin{bmatrix}0\\0\\1\\0\end{bmatrix}，\begin{bmatrix}0\\0\\0\\1\end{bmatrix}$ 中的一个。

神经网络的目标是使 $h_\Theta(x^{(i)})≈y^{(i)}$

关于是神经网络更为深入的内容和反向传播等的学习笔记将在Andrew Ng机器学习入门学习笔记（四）之神经网络（二）记录。