- nn.RNN:
- 数据处理:每次向网络中输入batch个样本,每个时刻处理的是该时刻的batch个样本
- 输入3句话,每句话10个单词,每个单词用100维的向量表示,那么seq_len=10,batch=3,feature_len=100。
- RNN的前向传播公式:
x_t@w_(xh)+h_t@w_(hh) [batch,feature_len] @ [hidden_len,feature_len]^T+ [batch, hidden_len]@ [hidden_len , hidden_len]^T
- hidden_len是一个可以自定的超参数
- x_t@w_(xh)是对当前时刻处理的Tensor x_t 的线性变换
- h_t@w_(hh)是对当前时刻取得的隐藏记忆单元的线性变换
- 注意nn.RNN构造时传入的是feature_len和hidden_len,至于有多少个特征(seq_len)、一次输入多少样本(batch)都是可以在运行时候动态决定的。
- RNN的构造:
from torch import nn # 表示feature_len=100(如每个单词用100维向量表示), hidden_len=10(隐藏单元的尺寸) rnn = nn.RNN(100, 10) # 使用nn.RNN构造时传入的三个参数是feature_len、hidden_len、num_layers,默认空间层数=1。
- nn.RNN的forward方法:
out, h_t=forward(x, h_0) """ x是一次性将所有时刻特征喂入的,而不需要每次喂入当前时刻的x_t,所以其shape是[seq_len,batch,feature_len]。 h_0是第一个时刻空间上所有层的记忆单元的Tensor,要考虑循环网络空间上的层数,所以这里输入的shape是[num_layer,batch,hidden_len]。 返回值有两部分: h_t是最后一个时刻空间上所有层的记忆单元,所以它和h_0的shape是一样的,即[num_layer,batch,hidden_len]。 返回的out是每一个时刻上空间上最后一层的输出,所以它的shape是[seq_len,batch,hidden_len] """
- 使用例子:
- 一层:
# 表示feature_len=100, hidden_len=20, 层数=1 rnn = nn.RNN(100, 20, 1) # 输入3个样本序列(batch=3), 序列长为10(seq_len=10), 每个特征100维度(feature_len=100) x = torch.randn(10, 3, 100) # 传入RNN处理, 另外传入h_0, shape是<层数, batch, hidden_len=20> out, h = rnn(x, torch.zeros(1, 3, 20))
- 多层的只要构造时设置第三个参数大于1,对于每一层都有在时间线上的共享参数:
from torch import nn # 表示feature_len=100, hidden_len=20, 层数=2 rnn = nn.RNN(100, 20, num_layers=2) """ 从l1层开始接受的输入都是下面层的输出,也就是说接受的输入的特征数不再是feature_len而是hidden_len了,所以这里参数weight_ih_l1的shape应是[hidden_len,hidden_len]: nn.RNN的最底下一层l0将外部的feature_len转化为隐藏记忆单元的内部表示即hidden_len,而其它层都是输入hidden_len输出hidden_len的。 """
- 包含参数初始化的例子:
# RNN层 self.rnn = nn.RNN( input_size=1, # 即feature_len=1 hidden_size=hidden_len, # 隐藏记忆单元尺寸 num_layers=1, # 层数,这里就用单层RNN batch_first=True # 在喂入数据时,按照[batch,seq_len,feature_len]的格式 ) # 对RNN层的参数做初始化 for p in self.rnn.parameters(): nn.init.normal_(p, mean=0.0, std=0.001) # 输出层,直接用一个线性变换把每个时刻记忆单元的hidden_len输出为所需的feature_len=1 self.linear = nn.Linear(hidden_len, 1) """生成样本数据""" # 在0~3之间随机取开始的时刻点 k = np.random.randint(3, size=1)[0] # 取点的区间是[k, k+10],均匀地取num_points个点 time_steps = np.linspace(k, k + 10, num_points) # 在这num_points个时刻上生成函数值数据 data = np.sin(time_steps) # 喂入模型得到输出 out, h = model(x, h) # h是上次循环得到的h # 因为h在循环中被一次次嵌套,这里不要为上一个网络求梯度,而只求当前的,所以detach一下 h = h.detach()
- 一层:
- 要注意,使用nn.RNN时,输入Tensor的seq_len并不是一个在构造时需要的参数,也就是说,训练的时候可以用某个seq_len训练,而测试的时候可以用另一个seq_len来测试。比如在这个例子中,训练时是用0-48这49个点,预测1-49这49个点(seq_len=49)。而测试时每次传入一个点(seq_len=1),预测下一个点。PyTorch会自动调整循环网络的结构来适应输入。
- nn.RNNCell:
- 将序列上的每个时刻分开来处理。
- 如果要处理的是3个句子,每个句子10个单词,每个单词用长100的向量,那么送入nn.RNN的Tensor的shape就是[10,3,100]。但如果使用nn.RNNCell,则将每个时刻分开处理,送入的Tensor的shape是[3,100],但要将此计算单元运行10次。显然这种方式比较麻烦,但使用起来也更灵活。
- 构造方法和nn.RNN类似,依次传入feature_len和hidden_len,因为这只是一个计算单元,所以不涉及层数。
- 前向计算的输入输出和nn.RNN是不一样的,具体是:
h_t = forward(x_t, h_{t-1}) """ 当前时刻的输入x_t,所以其shape是[batch,feature_len]。 h_{t-1}是这个时刻运行之前记忆单元的Tensor,也就是前一时刻的单元输出,所以这里输入的shape是[batch,hidden_len]。 返回值h_t是这个时刻运行之后记忆单元的Tensor,也就是下一时刻(如果有)的单元输入,所以它和h_{t-1}的shape是一样的,即[batch,hidden_len]。 """
- 使用nn.RNNCell没法像nn.RNN那样直接求得网络的输出out,如果需要,可以将最后一层每个时刻i ii该单元的输出h_i组合起来:
out = torch.stack([h1,h2,...,ht])
- 使用例子:
- 一层:
# 表示feature_len=100, hidden_len=20 cell = nn.RNNCell(100, 20) # 所有时刻的输入, 一共有10个时刻, 即seq_len=10 xs = [torch.randn(3, 100) for i in range(10)] # 初始化隐藏记忆单元, batch=3, hidden_len=20 h = torch.zeros(3, 20) # 对每个时刻的输入, 传入这个nn.RNNCell计算单元, 还要传入上一时h, 以进行前向计算 for xt in xs: h = cell(xt, h)
- 两层:
# 第0层和第1层的计算单元 cell_l0 = nn.RNNCell(100, 30) # feature_len=100, hidden_len_l0=30 cell_l1 = nn.RNNCell(30, 20) # hidden_len_l0=30, hidden_len_l1=20 # 第0层和第1层使用的隐藏记忆单元(图中黄色和绿色) h_l0 = torch.zeros(3, 30) # batch=3, hidden_len_l0=30 h_l1 = torch.zeros(3, 20) # batch=3, hidden_len_l1=20 # 原始输入, batch=3, feature_len=100 xs = [torch.randn(3, 100) for i in range(4)] # seq_len=4, 即共4个时刻 for xt in xs: h_l0 = cell_l0(xt, h_l0) h_l1 = cell_l1(h_l0, h_l1)
- 一层:
pytorch基础学习(6)
猜你喜欢
转载自blog.csdn.net/weixin_45647721/article/details/128166067
今日推荐
周排行