Introdução ao Deep Learning (58) Rede Neural Recorrente - Implementação Simples de Rede Neural Recorrente
prefácio
O conteúdo principal vem do link 1 do blog link 2 do blog Espero que você possa apoiar muito o autor
Este artigo é usado para registros para evitar esquecimento
Redes Neurais Recorrentes - Implementação Concisa de Redes Neurais Recorrentes
Livro didático
Embora a seção anterior tenha sido instrutiva para entender como as redes neurais recorrentes são implementadas, ela não é conveniente. Esta seção mostrará como implementar o mesmo modelo de linguagem com mais eficiência usando as funções fornecidas pela API de alto nível da estrutura de aprendizado profundo. Ainda começamos lendo o conjunto de dados do Time Machine.
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l
batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
1 Defina o modelo
A API de alto nível fornece implementações de redes neurais recorrentes. Construímos uma camada de rede neural recorrente com uma única camada oculta de 256 unidades ocultas rnn_layer
. Na verdade, não discutimos a importância das redes neurais recorrentes multicamadas. Agora é suficiente entender várias camadas como a saída de uma camada de rede neural recorrente sendo usada como entrada da próxima camada de rede neural recorrente.
num_hiddens = 256
rnn_layer = nn.RNN(len(vocab), num_hiddens)
Usamos um tensor para inicializar o estado oculto, sua forma é (número de camadas ocultas, tamanho do lote, número de unidades ocultas).
nn.RNN
O estado oculto retornado pelo exemplo no cálculo direto refere-se ao estado oculto da camada oculta na última etapa de tempo : quando houver várias camadas da camada oculta, o estado oculto de cada camada será registrado nesta variável; por memória de longo prazo (LSTM) ), o estado oculto é uma tupla (h, c), ou seja, estado oculto e estado de célula. Apresentaremos a memória de longo prazo e as redes neurais recorrentes profundas mais adiante neste capítulo.
state = torch.zeros((1, batch_size, num_hiddens))
state.shape
saída:
torch.Size([1, 32, 256])
Com um estado oculto e uma entrada, podemos calcular a saída com o estado oculto atualizado. É importante ressaltar que rnn_layer
a "saída" de (Y) não envolve o cálculo da camada de saída: ela se refere aos estados ocultos em cada intervalo de tempo que podem ser usados como entrada para as camadas de saída subsequentes.
X = torch.rand(size=(num_steps, batch_size, len(vocab)))
Y, state_new = rnn_layer(X, state)
Y.shape, state_new.shape
saída:
(torch.Size([35, 32, 256]), torch.Size([1, 32, 256]))
Semelhante à seção anterior, definimos uma RNNModel
classe para um modelo de rede neural recorrente completo. Observe que rnn_layer
apenas as camadas recorrentes ocultas estão incluídas, também precisamos criar uma camada de saída separada.
class RNNModel(nn.Module):
"""循环神经网络模型"""
def __init__(self, rnn_layer, vocab_size, **kwargs):
super(RNNModel, self).__init__(**kwargs)
self.rnn = rnn_layer
self.vocab_size = vocab_size
self.num_hiddens = self.rnn.hidden_size
# 如果RNN是双向的(之后将介绍),num_directions应该是2,否则应该是1
if not self.rnn.bidirectional:
self.num_directions = 1
self.linear = nn.Linear(self.num_hiddens, self.vocab_size)
else:
self.num_directions = 2
self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)
def forward(self, inputs, state):
X = F.one_hot(inputs.T.long(), self.vocab_size)
X = X.to(torch.float32)
Y, state = self.rnn(X, state)
# 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
# 它的输出形状是(时间步数*批量大小,词表大小)。
output = self.linear(Y.reshape((-1, Y.shape[-1])))
return output, state
def begin_state(self, device, batch_size=1):
if not isinstance(self.rnn, nn.LSTM):
# nn.GRU以张量作为隐状态
return torch.zeros((self.num_directions * self.rnn.num_layers,
batch_size, self.num_hiddens),
device=device)
else:
# nn.LSTM以元组作为隐状态
return (torch.zeros((
self.num_directions * self.rnn.num_layers,
batch_size, self.num_hiddens), device=device),
torch.zeros((
self.num_directions * self.rnn.num_layers,
batch_size, self.num_hiddens), device=device))
2 Treinamento e Previsão
Antes de treinar o modelo, vamos fazer previsões com base em um modelo com pesos aleatórios.
device = d2l.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)
d2l.predict_ch8('time traveller', 10, net, vocab, device)
Obviamente, esse tipo de modelo não pode produzir bons resultados. Em seguida, usamos as chamadas de hiperparâmetros definidas na seção anterior train_ch8
e usamos a API de alto nível para treinar o modelo.
num_epochs, lr = 500, 1
d2l.train_ch8(net, train_iter, vocab, lr, num_epochs, device)
saída:
perplexity 1.3, 286908.2 tokens/sec on cuda:0
time traveller came the time traveller but now you begin to spen
traveller pork acong wa canome precable thig thit lepanchat
Em comparação com a seção anterior, o modelo atinge menor perplexidade em um tempo menor devido a mais otimizações de código pela API de alto nível da estrutura de aprendizado profundo.
3 Resumo
-
A API de alto nível da estrutura de aprendizado profundo fornece a implementação de camadas de rede neural recorrentes.
-
A camada de rede neural recorrente da API de alto nível retorna uma saída e um estado oculto atualizado, também precisamos calcular a camada de saída de todo o modelo.
-
O uso de uma implementação de API de alto nível acelera o treinamento em comparação com a implementação de redes neurais recorrentes do zero.