introdução CRNN do princípio da OCR

4.CRNN princípio introdução

Este artigo é baseado no papel "An End-to-End Trainable Rede Neural para o Reconhecimento Sequence e sua aplicação a cena de reconhecimento de texto baseada em imagem" Resumo traduzido do. CRNN pode identificar diferentes tamanhos e comprimentos diferentes de imagens de texto. O documento também identifica a música, em teoria, este modelo pode também ser efetiva identificação chinesa, não faz distinção entre línguas.

Resumo 4.1.1.CRNN

Convolucional Recurrent Neural Network (CRNN), como o nome sugere, é uma combinação da CNN e RNN. Finalmente, nós adicionamos um CTC.

estrutura modelo 4.1.2.CRNN

Tal como mostrado, é composto por três camadas, de baixo para cima são a camada convolucional, RNN camada, uma camada de conversão. Convolução-imagem da camada de extracção de características. RNN camada utiliza LSTM. Convolution na camada intermediária e camada RNN criou uma camada Mapa-to-Sequence. camada de conversão inclui dois tipos de dicionário-base, um não-dicionário base. Em que RNN camada de conversão converte o resultado em uma etiqueta. estrutura do modelo mostrado abaixo.

Aqui Insert Picture Descrição

Aqui Insert Picture Descrição
Camada 3 e 4 em janelas 1 * 2 em vez de janelas quadradas, a função de ajuste fino aumenta o comprimento, produzindo, assim, uma sequência de assinatura mais.
Use as técnicas de normalização lote.
O direito de usar todas as camadas CRNN compartilhados pesos de conexão, embora não totalmente conectado camadas, de modo que alguns parâmetros, ocupam menos memória.

4.1.3 característica extracção CNN

1. Toda a camada de ligação é removido.
2. Todas as imagens devem ser a mesma entrada de altura, o modelo é 100 * 32, para melhorar a eficiência do treinamento.
3. A imagem Leitura características em colunas de largura 1 pixel. Abaixo, está uma lista de recursos de emenda.
Aqui Insert Picture Descrição

4.1.4.Transcription camada, CTC

camada transcrição camada LSTM rótulo de saída correspondente, a tecnologia utiliza CTC.
CTC, Connectionist temporal de classificação, para resolver o problema da sequência de entrada e a sequência de saída difícil 1-1.
O par de entrada e de saída (X, Y) é, CTC objectivo é o de maximizar a probabilidade fórmula
Aqui Insert Picture Descrição
para explicar, para o modelo RNN + CTC é, RNN é probabilidade saída Pt, t representa o tempo que RNN conceito. Multiplicação meios que todos os caracteres multiplicado pela probabilidade de um caminho, a adição representa múltiplos caminhos. Devido à entrada e saída acima referida CTC alinhado é muitas, por exemplo, ele-l-lo- e Hee-l-eis são correspondendo a "Olá", que é emitido a partir dos dois caminhos que, para todo o caminho relativo além da probabilidade condicional é a saída.
modelo de dicionário baseada, de fato, é a base no que precede, CTC, na obtenção de resultados, e do dicionário de novo, para melhorar ainda mais a precisão, mas nenhum dicionário só pode ter alta probabilidade como resultado, menos verificar este passo do dicionário.

4.1.5. Modelo de treinamento

entrada do modelo (I, I), que representa a entrada da imagem, eu represento os resultados de texto reais. Treinando resultado é minimizar a seguinte função.
Aqui Insert Picture Descrição
Onde y é o resultado de saída CNN e rnn, a função acima, sem qualquer movimentação manual, é equivalente ao cálculo das entradas e saídas directas, de modo que o modelo é um fim (end-to-end).
Usando uma descida gradiente estocástico (SGD) para o treinamento.
Use ADADELTA para ajustar automaticamente a taxa de aprendizagem.

4.1.6. Pontuação Reconhecimento

Porque menos amostras de treinamento, o modelo foi aparada. camada convolucional excluído 4 e a camada 6, a camada bidireccional LSTM 2 torna-se uma camada de LSTM unidireccional 2.
O modelo também identificado nas pontuações obtido excelentes resultados.

Publicado 21 artigos originais · ganhou elogios 18 · vista 1453

Acho que você gosta

Origin blog.csdn.net/zephyr_wang/article/details/104445744
Recomendado
Clasificación