深度学习(六):多层感知机

文章目录

引入

  深度学习主要关注多层模型,接下来将以多层感知机 (multi-layer perceptron, MLP)为例,介绍多层神经网络的概念。

1.1 隐藏层

  多层感知机在单层神经网络的基础上引入了一到多个隐藏层 (hidden layer)。隐藏层位于输入层和输出层之间,以下图为例,它含有一个隐藏层,该层包含5个隐藏单元 (hidden unit):
在这里插入图片描述
  图片来源:李沐、Aston Zhang等老师的这本《动手学深度学习》一书。
  由于输入层不涉及计算,所以上图所示的感知机的层数为2。
  相关的符号如下:

符号 含义
X R n × d \boldsymbol{X} \in \boldsymbol{R}^{n×d} 小批量样本
n n 批量大小
d d 输入个数
h h 隐藏单元个数 (假设只有一个隐藏层)
H R n × h \boldsymbol{H} \in \boldsymbol{R}^{n × h} 隐藏层的输出
W h R d × h \boldsymbol{W}_h \in \boldsymbol{R}^{d × h} 隐藏层权重参数
b h R 1 × h \boldsymbol{b}_h \in \boldsymbol{R}^{1 × h} 隐藏层偏差参数
W o R h × q \boldsymbol{W}_o \in \boldsymbol{R}^{h × q} 输出层权重参数
b 0 R 1 × q \boldsymbol{b}_0 \in \boldsymbol{R}^{1 × q} 输出层偏差参数
q q 输出个数

  首先介绍一种含单隐藏层的多层感知机的设计,其输出 O R n × q \boldsymbol{O} \in \boldsymbol{R}^{n × q} 的计算为:
H = X W h + b h O = X W o + b o (1) \begin{matrix} \boldsymbol{H} = \boldsymbol{XW}_h + \boldsymbol{b}_h\\ \boldsymbol{O} = \boldsymbol{XW}_o + \boldsymbol{b}_o \tag{1} \end{matrix} 也就是将隐藏层的输出直接作为输出层的输入。联立上式:
O = X W h W o + b h W o + b o (2) \boldsymbol{O} = \boldsymbol{XW}_h \boldsymbol{Wo} + \boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o \tag{2} 从联立的式子可以看出,虽然神经网络引入了隐藏层,却依然等价于一个单层神经网络。显然,即便引入再多的隐藏层,以上设计依然只能与仅含输出层的单层神经网络等价。

原创文章 35 获赞 44 访问量 8627

猜你喜欢

转载自blog.csdn.net/weixin_44575152/article/details/104742757