【神经网络基础】第二课--浅层神经网络

课程来源:吴恩达 深度学习课程 《神经网络基础》
笔记整理:王小草
时间:2018年5月15日


1.神经网络概览

回顾逻辑回归的结构:
image_1cde2lj74ao013451inq1egj193e9.png-7.3kB
圆圈节点内的计算如下,先计算线性z,再过一个sigmoid函数得到a,然后计算损失函数,进行梯度下降法求最优参数。
image_1cde2mrmk5jp1ms2ajnivkpk7m.png-16.8kB

推广到神经网络,每个圆圈节点都代表以上z,a两步计算(第一层用1表示,第而层用2表示)
image_1cde2sjvbmktm3hhfa7n11nf913.png-16.3kB
相当于如下计算过程:
image_1cde338901rguvfj1lfer12oh1g.png-38kB

同样使用反向传播可以计算出梯度,并寻找最优参数

2.神经网络表示

image_1cde3f3l94dk1mu32omva1bcp1t.png-34.3kB

以上神经网络,第一层是输入层,第二层是隐藏层,第三层是输出层。因此这是一个两层的神经网络(一般我们不算输入层)。

输入层:
用a[i]表示第i层的计算结果,也就是第i+1层的输入。因此输入层传递给隐藏层的数据,就是输入x本身,即a[0] = x

隐藏层:
第一个隐藏层的计算结果用a[1]表示,由于隐藏层中有4个节点(神经元),每个节点的计算结果可以用a1j表示:
image_1cde44cc31q4r1g91ghc1b091ejv4a.png-11.4kB
a[1]可以表示成:
image_1cde45i2m1phjpo3l4v1sl814f44n.png-8kB

输出层:
输出层表示为a[2],即为最终的输出y^

3.神经网络输出

神经网络到底最后会计算出什么鬼?

每个神经元的计算如下:
image_1cde4gtjf7881io25a6vve4gu54.png-33.7kB

隐藏层计算:
那么整个神经网络其实就是在重复以上过程的叠加。首先看隐藏层的四个节点,每个节点都先计算z,a:
image_1cde4nv6o1c1m1otm4os75e1r055h.png-78.7kB
将这四个等式用向量表示:
w用向量表示如下,由于前一层是3维,本层是4维,因此w矩阵的大小是(4,3)
image_1cde4ruml1jk1e9i11tg184ilju6u.png-19.3kB

image_1cde519os1hr91phffrsrksg3v7b.png-101.5kB
image_1cde523ob1q641qu21nui7s6r977o.png-23.7kB

简写之后如下:
image_1cde55l621il8icopogsdc7g92.png-60.4kB

输出层计算:
将上一层的输出作为本层的输入,其实就是逻辑回归的过程。
image_1cde57km81mapahqf5osle1qrn9f.png-10.1kB

4.多个样本向量化

上文是单个样本的向量化计算,下面推广到多个样本的向量计算,从而避免使用for循环。

对于一个样本

若有m个样本,则有m个输入x(i),m个输出y(i):
image_1cdfdme22dqdcdhuc1q421jg99.png-21kB
a[l](i)表示第l层的第i个样本。

若使用for循环遍历每个样本,则会有这般光景:
image_1cdfdui3bv2g11dn1pq21lcidm913.png-28kB

若使用向量化计算,则又是这般天地:
image_1cdff1oh9n3j14f810cco5q13sf6e.png-15.7kB

其中X如下:每一列为一个样本,每个样本有n维特征,矩阵大小为n*m,则:
image_1cdff29g41otb1ngo10r01s2p1mg6r.png-6.4kB

Z1如下,每一列荏苒是对应一个样本
image_1cdfe6r8d1bhk14bf1sv1q2k54u3a.png-12.4kB

A1如下,每一列仍然是对应一个样本,是每个样本的激活值,每一列的元素个数于改隐藏层的神经元个数一致:
image_1cdff7a43r4e1i391s7rp7s13kj8s.png-8.6kB

5.向量化实现的解释

解释向量计算的过程,假设有如下3个样本
image_1cdfek7emivur081c2n1ss717j54.png-28kB

则过程如下:
image_1cdfem85u1v2uuv9vvpus21rv61.png-75.6kB

W1表示第一个隐藏层的权重矩阵,有n行N1列,n是对应样本x的特征维度,N1代表第一个隐藏层的神经元个数
将W1与X相乘之后,会得到m*k大小的Z矩阵,每一列对应一个样本,每一列的元素个数对应神经元的个数

为何要一列为一个样本呢?
因为这样W于X两个矩阵相乘之后得到的z也是一列为一个样本,这样保证里X于Z的对齐。

6.激活函数

6.1 sigmoid函数

image_1cdfjmebvgh3gdv1klihkhu5i99.png-10.5kB
sigmoid函数在神经网络中一般不太用,一般用于二分类中,因为而分类需要得到0/1类,而sigmoid函数刚好是在[0,1]之间

6.2 tanh函数

image_1cdfjq5q71aq1v7i8v2v5i1468b6.png-11.5kB
tanh优于sigmoid函数,因为其均值为0,实现了数据中心化的效果。

若神经网络是用于二分类的, 则为了实现最后输出[0,1],可以在最后一层用sigmoid函数,前面用其他激活函数。可见,在同一个网络中不同层可根据不同需求使用不同的激活函数。

但无论是sigmoid函数还是tanh函数都有一个致命的缺点,当输入z无穷大时, a回无限接近于0/1或-1/1, 即其鞋履接近0,在梯度下降时回拖慢梯度下降的效率,因此实践中一般回使用更受欢迎的Relu函数

6.3 Relu函数

image_1cdfk406f1j2tkp2f6lu34qh2bj.png-9.5kB

当z<=0时, a=0。若经过这个激活函数出现了很多0,那也没事,可以自己给这些0赋其他值。若做二分类,则最后一层用sigmoid函数,其他层可以用Relu函数。

6.4 Leaky Relu函数

image_1cdfk99c7718g981tne11kujuic0.png-16.7kB
Leaky Relu解决了Relu多0的问题,但实际中用Relu更多。但无论是Leaky Relu还是Relu都比sigmoid函数要快很多,因为没有鞋履接近于0的情况。

6.5 为何需要使用非线性函数

若使用线性函数作为激活函数,则神经网络的计算如下:
image_1cdge0r351a8o14b4hfbt7p1cl8cd.png-40.5kB

可见经过线性激活函数,无论神经网络设多少层,都是在计算线性函数而已。
但线性函数也不是一无是处,比如在做线性回归时可以使用线性激活函数,再比如当腰预测一个实数时,可在神经网络的最后一层设置线性激活函数。

7.激活函数的导数

7.1 sigmoid的导数

函数:
image_1cdgekv3b10snnt5moqmrsk2ocq.png-4kB

导数:
image_1cdgem4a37vp5rbmm5as5agvd7.png-40.2kB

7.2 tanh的导数

函数:
image_1cdgenjv0hca1lmr13d9jtqh75dk.png-8.9kB

导数:
image_1cdgeoo7vecc5kl10er1d2fvgoe1.png-26.3kB

7.3 ReLU和Leaky RelU的导数

函数:
image_1cdgesmavu0713061rso1s221k5jee.png-17.5kB

导数:
ReLu导数:
image_1cdgeuajn2jrdps9laa1uia7fb.png-15.3kB

Leaky RelU导数:
image_1cdgev5g48q31dii4qt1sgu1254fo.png-9.1kB

8.神经网络的梯度下降法

以一个2层的神经网络来做示范计算梯度下降

首先,明确参数:
image_1cdgg0n3hmrt90l7c1dn15fug5.png-15.3kB

接着,明确成本函数:
image_1cdgg1pptsd6ls1pe11j5m1ub89.png-18.5kB

然后,可以进行梯度下降的迭代了,重复以下过程
(1)第一步,先前向计算出每个样本的预测值y^(1)…y^(m)
(2)根据成本函数,计算每个参数的导数:image_1cdggg8711of711d2f1g8b41gc6m.png-9.7kB
(3)根据学习率更新参数:
image_1cdggh7ri69eu5016tdks4qvq13.png-13.7kB

将以上过程用公式的形式表示:
(1)第一步,前向计算没个样本点预测值:
image_1cdggjqs41vk718591iohmffdkg1g.png-29kB

(2)反向传播:
image_1cdggl9i5ufdlg4bq31e3j1mo1t.png-86.9kB

9.直观理解反向传播

9.1 逻辑回归反向传播

回顾逻辑回归:
image_1cdggu0gi1dh11338f9p2oukha2a.png-24.3kB

逻辑回归的反向传播过程如下:
先计算a的导数da:
image_1cdggva8h6n5cjf38ofhf1n1p2n.png-15.6kB
再计算z的导数dz:
image_1cdgh12mcjup1bc5icb1irm2qt34.png-3kB
从而计算w与b的倒数:
image_1cdgh1uu0113sgqm1nek18gc9hf3h.png-5kB

9.2 神经网络反向传播

神经网络前向计算如下:
image_1cdgh4sun15h112lc1hpkf7b1r1l3u.png-44.3kB

同理的反向传播
先计算da2,然后一步一步往回退,求各参数的导数:
image_1cdgh9tjnpk51av3k1c1ahh1os94b.png-26.2kB

用向量来表示(大写字母表示vector):
image_1cdghc1su1anb1ikd3091mcn4kv4o.png-59.6kB

10.随机初始化

权重的初始化也很重要,影响模型接下去的效果。

假如权重初始化得太小,比如都接近于0:
image_1cdghnegk1tif1e2515ennojuuh55.png-7.9kB
则同一层中的神经元的值都会相等,从而反向传播计算的梯度也会相等。
image_1cdghqsgj19cn1f1h1do915gh16gn5i.png-7.1kB
但其实我们更希望每个神经元能学习不同的特征,有不同的值。

但权重也不能太大,若w大,则z大,则经过sigmoid或者tanh之后,都接近于1/0或1/-1,再反向传播时会出现导数为0.但若不适用sigmoid或者tanh,则w大一点也无所谓的。

猜你喜欢

转载自blog.csdn.net/sinat_33761963/article/details/80317675
今日推荐