RNN训练详解，通俗易懂 - 代码天地

RNN训练详解，通俗易懂

其他 2018-09-18 10:27:17 阅读次数: 0

Xt代表输入序列中的第t步元素，例如语句中的一个汉字。一般使用一个one-hot向量来表示，向量的长度是训练所用的汉字的总数（或称之为字典大小），而唯一为1的向量元素代表当前的汉字。
St代表第t步的隐藏状态，其计算公式为St=tanh(U*Xt+W*St-1)。也就是说，当前的隐藏状态由前一个状态和当前输入计算得到。考虑每一步隐藏状态的定义，可以把St视为一块内存，它保存了之前所有步骤的输入和隐藏状态信息。S-1是初始状态，被设置为全0。
Ot是第t步的输出。可以把它看作是对第t+1步的输入的预测，计算公式为：Ot=softmax(V*St)。可以通过比较Ot和Xt+1之间的误差来训练模型。
U,V,W是RNN的参数，并且在展开之后的每一步中依然保持不变。这就大大减少了RNN中参数的数量。

假设真实的输出应该是,那么误差可以定义为,是训练样本的index。整个网络的误差

我们将RNN再放大一些，看看细节

令则

矩阵向量化表示

所以梯度为：

其中是点乘符号，即对应元素乘。

简单点来说，RNN的训练过程：假设一个输入文本长度为20，计算t=20时的的loss，然后对loss求导（W,U,V），由于是前后相互影响的，整个求导是一个叠加的过程，即可得到求导后的变化量，整个UVW是共享的。

（综合了多位分享者的内容，具体是谁由于没保存记录所以就没加上，能解决一点疑惑就好）

猜你喜欢

转载自blog.csdn.net/cuipanguo/article/details/82144198

RNN训练详解，通俗易懂

通俗易懂的RNN

通俗易懂的ThreadLocal详解

SpringSecurity 详解(通俗易懂)

通俗易懂的RNN总结（包含LSTM/GRU/BPTT等）

用通俗易懂例子“干掉”RNN与LSTM

SVM 原理详解，通俗易懂

RabbitMQ基础概念详解(通俗易懂)

Java JVM详解--通俗易懂教程

C语言指针详解（通俗易懂）

通俗易懂的KMP算法详解

IaaS、PaaS、SaaS详解(通俗易懂)

通俗易懂的CSS的浮动float详解

关于epoll通俗易懂的详解

快速幂详解（通俗易懂！）

通俗易懂！Java 线程池详解

通俗易懂的C语言指针（详解）

IO 模型详解（通俗易懂）

java 可变参数详解（通俗易懂）

C 递归详解（通俗易懂）

C语言链表详解（通俗易懂）

通俗易懂的机器学习——使用服务器训练模型详解

jsonp(对，通俗易懂)

通俗易懂的EM

通俗易懂TensorFlow！

docker：通俗易懂

通俗易懂的Redis

MQ(通俗易懂)

通俗易懂RSA

通俗易懂的Softmax

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)