Introdução ao Deep Learning (58) Rede Neural Recorrente - Implementação Simples de Rede Neural Recorrente

Introdução ao Deep Learning (58) Rede Neural Recorrente - Implementação Simples de Rede Neural Recorrente

prefácio

O conteúdo principal vem do link 1 do blog link 2 do blog Espero que você possa apoiar muito o autor
Este artigo é usado para registros para evitar esquecimento

Redes Neurais Recorrentes - Implementação Concisa de Redes Neurais Recorrentes

Livro didático

Embora a seção anterior tenha sido instrutiva para entender como as redes neurais recorrentes são implementadas, ela não é conveniente. Esta seção mostrará como implementar o mesmo modelo de linguagem com mais eficiência usando as funções fornecidas pela API de alto nível da estrutura de aprendizado profundo. Ainda começamos lendo o conjunto de dados do Time Machine.

import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

1 Defina o modelo

A API de alto nível fornece implementações de redes neurais recorrentes. Construímos uma camada de rede neural recorrente com uma única camada oculta de 256 unidades ocultas rnn_layer. Na verdade, não discutimos a importância das redes neurais recorrentes multicamadas. Agora é suficiente entender várias camadas como a saída de uma camada de rede neural recorrente sendo usada como entrada da próxima camada de rede neural recorrente.

num_hiddens = 256
rnn_layer = nn.RNN(len(vocab), num_hiddens)

Usamos um tensor para inicializar o estado oculto, sua forma é (número de camadas ocultas, tamanho do lote, número de unidades ocultas).

nn.RNNO estado oculto retornado pelo exemplo no cálculo direto refere-se ao estado oculto da camada oculta na última etapa de tempo : quando houver várias camadas da camada oculta, o estado oculto de cada camada será registrado nesta variável; por memória de longo prazo (LSTM) ), o estado oculto é uma tupla (h, c), ou seja, estado oculto e estado de célula. Apresentaremos a memória de longo prazo e as redes neurais recorrentes profundas mais adiante neste capítulo.

state = torch.zeros((1, batch_size, num_hiddens))
state.shape

saída:

torch.Size([1, 32, 256])

Com um estado oculto e uma entrada, podemos calcular a saída com o estado oculto atualizado. É importante ressaltar que rnn_layera "saída" de (Y) não envolve o cálculo da camada de saída: ela se refere aos estados ocultos em cada intervalo de tempo que podem ser usados ​​como entrada para as camadas de saída subsequentes.

X = torch.rand(size=(num_steps, batch_size, len(vocab)))
Y, state_new = rnn_layer(X, state)
Y.shape, state_new.shape

saída:

(torch.Size([35, 32, 256]), torch.Size([1, 32, 256]))

Semelhante à seção anterior, definimos uma RNNModelclasse para um modelo de rede neural recorrente completo. Observe que rnn_layerapenas as camadas recorrentes ocultas estão incluídas, também precisamos criar uma camada de saída separada.

class RNNModel(nn.Module):
    """循环神经网络模型"""
    def __init__(self, rnn_layer, vocab_size, **kwargs):
        super(RNNModel, self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.num_hiddens = self.rnn.hidden_size
        # 如果RNN是双向的(之后将介绍),num_directions应该是2,否则应该是1
        if not self.rnn.bidirectional:
            self.num_directions = 1
            self.linear = nn.Linear(self.num_hiddens, self.vocab_size)
        else:
            self.num_directions = 2
            self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)

    def forward(self, inputs, state):
        X = F.one_hot(inputs.T.long(), self.vocab_size)
        X = X.to(torch.float32)
        Y, state = self.rnn(X, state)
        # 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)
        # 它的输出形状是(时间步数*批量大小,词表大小)。
        output = self.linear(Y.reshape((-1, Y.shape[-1])))
        return output, state

    def begin_state(self, device, batch_size=1):
        if not isinstance(self.rnn, nn.LSTM):
            # nn.GRU以张量作为隐状态
            return  torch.zeros((self.num_directions * self.rnn.num_layers,
                                 batch_size, self.num_hiddens),
                                device=device)
        else:
            # nn.LSTM以元组作为隐状态
            return (torch.zeros((
                self.num_directions * self.rnn.num_layers,
                batch_size, self.num_hiddens), device=device),
                    torch.zeros((
                        self.num_directions * self.rnn.num_layers,
                        batch_size, self.num_hiddens), device=device))

2 Treinamento e Previsão

Antes de treinar o modelo, vamos fazer previsões com base em um modelo com pesos aleatórios.

device = d2l.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)
d2l.predict_ch8('time traveller', 10, net, vocab, device)

Obviamente, esse tipo de modelo não pode produzir bons resultados. Em seguida, usamos as chamadas de hiperparâmetros definidas na seção anterior train_ch8e usamos a API de alto nível para treinar o modelo.

num_epochs, lr = 500, 1
d2l.train_ch8(net, train_iter, vocab, lr, num_epochs, device)

saída:

perplexity 1.3, 286908.2 tokens/sec on cuda:0
time traveller came the time traveller but now you begin to spen
traveller pork acong wa canome precable thig thit lepanchat

Em comparação com a seção anterior, o modelo atinge menor perplexidade em um tempo menor devido a mais otimizações de código pela API de alto nível da estrutura de aprendizado profundo.

3 Resumo

  • A API de alto nível da estrutura de aprendizado profundo fornece a implementação de camadas de rede neural recorrentes.

  • A camada de rede neural recorrente da API de alto nível retorna uma saída e um estado oculto atualizado, também precisamos calcular a camada de saída de todo o modelo.

  • O uso de uma implementação de API de alto nível acelera o treinamento em comparação com a implementação de redes neurais recorrentes do zero.

Acho que você gosta

Origin blog.csdn.net/qq_52358603/article/details/128275418
Recomendado
Clasificación