循环神经网络RNN - 代码天地

循环神经网络RNN

其他 2018-07-15 12:55:20 阅读次数: 0

全连接神经网络和卷积神经网络，他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。这时，就需要用到深度学习领域中另一类非常重要神经网络：循环神经网络(Recurrent Neural Network)。

下图是一个简单的循环神经网络，它由输入层、一个隐藏层和一个输出层组成：

U是输入层到隐藏层的权重矩阵；V是隐藏层到输出层的权重矩阵。那么，现在我们来看看W是什么。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

如果我们把上面的图展开，循环神经网络也可以画成下面这个样子：

现在看上去就比较清楚了，这个网络在t时刻接收到输入之后，隐藏层的值是，输出值是。关键一点是，的值不仅仅取决于，还取决于。我们可以用下面的公式来表示循环神经网络的计算方法：

公式很好理解g()和f()都是激活函数；如果把依次带入，可以得到：

从上面可以看出，循环神经网络的输出值，是受前面历次输入值、、、、...影响的，这就是为什么循环神经网络可以往前看任意多个输入值的原因。这是基本的循环神经网络，有时候不止需要前面的帧建模，还需要依赖后面的帧，例如语言模型：“我的手机坏了，我打算（）一部新手机”，如果只看前面的输入是无法判断括号中的词语，所以这时候我们就需要双向循环神经网络。

双向循环神经网络：

从上图可以看出，双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值A'参与反向计算。最终的输出值取决于和。其计算方法为：

其中，，；正向计算时，隐藏层的值与有关；反向计算时，隐藏层的值与有关；最终的输出取决于正向和反向计算的加和。依次类推写出双向循环神经网络的计算方法：

深度循环神经网络：

前面我们介绍的循环神经网络只有一个隐藏层，我们当然也可以堆叠两个以上的隐藏层，这样就得到了深度循环神经网络。如下图所示：

我们把第i个隐藏层的值表示为、，则深度循环神经网络的计算方式可以表示为：

循环神经网络的训练算法：BPTT

BPTT算法是针对循环层的训练算法，它的基本原理和BP算法是一样的，也包含同样的三个步骤：

1. 前向计算每个神经元的输出值；

2. 反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；

3. 计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

1．前项计算：

2．误差项计算：

BTPP算法将第l层t时刻的误差项值沿两个方向传播，一个方向是其传递到上一层网络，得到，这部分只和权重矩阵U有关；另一个是方向是将其沿时间线传递到初始时刻，得到，这部分只和权重矩阵W有关。

将沿时间往前传递一个时刻，我们就可以求得任意时刻k的误差项：

上式就是将误差项沿时间反向传播的算法。表示神经元在t时刻的加权输入，，。

将误差项反向传递到上一层网络：

上式就是将误差传递到上一层算法。

3．权重梯度计算：

误差项值，它是误差函数E对神经元j的加权输入的偏导数；误差函数E对权重矩阵W的偏导数，也就是权重矩阵在t时刻的梯度为:

那么最终梯度就是各个时刻的梯度之和：

同理：

以上所有公式具体推导参见博客（https://zybuluo.com/hanbingtao/note/541458）。

RNN的梯度爆炸和消失问题：

如果计算误差项时向前看很远，这就会导致误差项的值增长或缩小的非常快，这样就会导致相应的梯度爆炸和梯度消失问题；

梯度爆炸：程序会收到NaN错误。我们可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

梯度消失：

1. 合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。

2. 使用relu代替sigmoid和tanh作为激活函数。

3. 使用其他结构的RNNs，比如长短时记忆网络（LTSM）和Gated Recurrent Unit（GRU），这是最流行的做法。我们将在以后的文章中介绍这两种网络。

基本的循环神经网络存在梯度爆炸和梯度消失问题，并不能真正的处理好长距离的依赖（虽然有一些技巧可以减轻这些问题）。事实上，真正得到广泛的应用的是循环神经网络的一个变体：长短时记忆网络。它内部有一些特殊的结构，可以很好的处理长距离的依赖。

猜你喜欢

转载自blog.csdn.net/weixin_28750267/article/details/81051715

循环神经网络RNN

RNN循环神经网络

循环神经网络（RNN）

RNN 循环神经网络

循环神经网络(RNN)

循环神经网络 RNN

RNN（循环神经网络 or 递归神经网络）

TensorFlow——循环神经网络(RNN)

大话循环神经网络（RNN）

浅谈循环神经网络（RNN）

循环神经网络（RNN）入门

循环神经网络RNN（很简洁的讲解）

RNN循环神经网络结构

(十)循环神经网络RNN

循环神经网络模型RNN

循环神经网络（rnn）讲解

深度学习-循环神经网络（RNN）

RNN-循环神经网络

循环神经网络(RNN)简介

RNN(循环神经网络)详解

【Deep learning】循环神经网络RNN

RNN（循环神经网络）基础篇

循环神经网络-高级RNN

循环神经网络-初识RNN

RNN循环神经网络笔记汇总

什么是循环神经网络（RNN）

【循环神经网络】对RNN的理解

RNN循环神经网络相关知识

TensorFlow 循环神经网络RNN

【460】循环神经网络 RNN

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)