循环神经网络（RNN）入门

之前学习了卷积神经网络（CNN），在这里再简单介绍一下卷积神经网络的原理。

一个典型的卷积神经网络为：

输入 -> 卷积 -> RelU -> 池化 -> RelU -> 卷积 -> ... -> 池化 -> 全连接层 -> 输出

对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。而通过max pooling等操作可以进一步提高鲁棒性。CNN不仅可以用于图像识别，也可以用于语音识别等领域。

在CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被称为前向神经网络（Feed-forward Neural Networks）。CNN和DNN的缺陷在于，仅适合处理固定维度的输入及输出。DNN和CDD不适合解决不固定长度的序列问题。例如：机器翻译就是一个序列问题。RNN的优势在于，适合处理序列问题。

RNN

在RNN中，神经元的输出可以在下一时刻直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输入外，还包括其自身在（m-1）时刻的输出。将RNN展开，我们得到如下图所示的关系：

循环神经网络的这种结构非常适合处理前后有依赖关系的数据样本。由于这种链式的结构，循环神经网络与序列和列表紧密相连。因此，RNN适合处理基于时间的序列，例如：一段连续的语音，一段连续的手写文字。以语言模型为例，根据给定句子中的前t个字符，然后预测第t+1个字符。假设我们的句子是“你好世界”，使用前馈神经网络来预测：在时间1输入“你”，预测“好”，时间2向同一个网络输入“好”预测“世”。整个过程如下图所示：