4.CRNN princípio introdução
Este artigo é baseado no papel "An End-to-End Trainable Rede Neural para o Reconhecimento Sequence e sua aplicação a cena de reconhecimento de texto baseada em imagem" Resumo traduzido do. CRNN pode identificar diferentes tamanhos e comprimentos diferentes de imagens de texto. O documento também identifica a música, em teoria, este modelo pode também ser efetiva identificação chinesa, não faz distinção entre línguas.
Resumo 4.1.1.CRNN
Convolucional Recurrent Neural Network (CRNN), como o nome sugere, é uma combinação da CNN e RNN. Finalmente, nós adicionamos um CTC.
estrutura modelo 4.1.2.CRNN
Tal como mostrado, é composto por três camadas, de baixo para cima são a camada convolucional, RNN camada, uma camada de conversão. Convolução-imagem da camada de extracção de características. RNN camada utiliza LSTM. Convolution na camada intermediária e camada RNN criou uma camada Mapa-to-Sequence. camada de conversão inclui dois tipos de dicionário-base, um não-dicionário base. Em que RNN camada de conversão converte o resultado em uma etiqueta. estrutura do modelo mostrado abaixo.
Camada 3 e 4 em janelas 1 * 2 em vez de janelas quadradas, a função de ajuste fino aumenta o comprimento, produzindo, assim, uma sequência de assinatura mais.
Use as técnicas de normalização lote.
O direito de usar todas as camadas CRNN compartilhados pesos de conexão, embora não totalmente conectado camadas, de modo que alguns parâmetros, ocupam menos memória.
4.1.3 característica extracção CNN
1. Toda a camada de ligação é removido.
2. Todas as imagens devem ser a mesma entrada de altura, o modelo é 100 * 32, para melhorar a eficiência do treinamento.
3. A imagem Leitura características em colunas de largura 1 pixel. Abaixo, está uma lista de recursos de emenda.
4.1.4.Transcription camada, CTC
camada transcrição camada LSTM rótulo de saída correspondente, a tecnologia utiliza CTC.
CTC, Connectionist temporal de classificação, para resolver o problema da sequência de entrada e a sequência de saída difícil 1-1.
O par de entrada e de saída (X, Y) é, CTC objectivo é o de maximizar a probabilidade fórmula
para explicar, para o modelo RNN + CTC é, RNN é probabilidade saída Pt, t representa o tempo que RNN conceito. Multiplicação meios que todos os caracteres multiplicado pela probabilidade de um caminho, a adição representa múltiplos caminhos. Devido à entrada e saída acima referida CTC alinhado é muitas, por exemplo, ele-l-lo- e Hee-l-eis são correspondendo a "Olá", que é emitido a partir dos dois caminhos que, para todo o caminho relativo além da probabilidade condicional é a saída.
modelo de dicionário baseada, de fato, é a base no que precede, CTC, na obtenção de resultados, e do dicionário de novo, para melhorar ainda mais a precisão, mas nenhum dicionário só pode ter alta probabilidade como resultado, menos verificar este passo do dicionário.
4.1.5. Modelo de treinamento
entrada do modelo (I, I), que representa a entrada da imagem, eu represento os resultados de texto reais. Treinando resultado é minimizar a seguinte função.
Onde y é o resultado de saída CNN e rnn, a função acima, sem qualquer movimentação manual, é equivalente ao cálculo das entradas e saídas directas, de modo que o modelo é um fim (end-to-end).
Usando uma descida gradiente estocástico (SGD) para o treinamento.
Use ADADELTA para ajustar automaticamente a taxa de aprendizagem.
4.1.6. Pontuação Reconhecimento
Porque menos amostras de treinamento, o modelo foi aparada. camada convolucional excluído 4 e a camada 6, a camada bidireccional LSTM 2 torna-se uma camada de LSTM unidireccional 2.
O modelo também identificado nas pontuações obtido excelentes resultados.