O que é OCR? Explicação detalhada da tecnologia OCR

Reconhecimento óptico de caracteres (reconhecimento óptico de caracteres) é referido como "OCR". ORC refere-se à tecnologia de análise e identificação de arquivos de imagem contendo dados de texto para obter informações de texto e layout.

Geralmente incluem os seguintes processos:

1. Entrada de imagem

Para imagens de diferentes formatos, existem diferentes formatos de armazenamento e métodos de compactação. Atualmente, os projetos de código aberto para acessar imagens incluem OpenCV e CxImage.

2. Pré-tratamento

O pré-processamento inclui principalmente binarização, remoção de ruído e correção de inclinação, os conteúdos específicos são os seguintes:

Binarização: Na maioria dos casos, as fotos tiradas pela câmera são imagens coloridas, que contêm muitas informações e precisam ser simplificadas. Podemos simplesmente dividir o conteúdo da imagem em primeiro plano e fundo. Para permitir que o computador reconheça o texto mais rápido e melhor, é necessário processar primeiro a imagem colorida, de modo que apenas as informações do primeiro plano e do plano de fundo permaneçam na imagem, ou seja, basta definir o primeiro plano. A informação é preta e a informação de fundo é branca, que é a imagem binarizada. A comparação da imagem colorida e da imagem binarizada antes e depois do processamento é mostrada na Figura 1.

Remoção de ruído: O ruído pode ser definido de forma diferente para diferentes documentos. De acordo com as características do ruído para eliminar o processamento, isso é chamado de remoção de ruído.

Correção de inclinação: Normalmente, as fotos tiradas pelos usuários são mais casuais, e é muito provável que o documento fotografado fique enviesado. Nesse caso, é necessário o uso de software de reconhecimento de caracteres para correção.

3. Análise de layout

O processo de dividir imagens de documentos em parágrafos e linhas é chamado de análise de layout. Devido à variedade e complexidade dos documentos reais, atualmente não há um modelo de corte melhor e fixo.

4. Corte de personagem

Devido à limitação das condições de fotografar, muitas vezes causa a aderência dos caracteres e a quebra da caneta, o que limita muito o desempenho do sistema de reconhecimento. Neste momento, o software de reconhecimento de texto é necessário para ter a função de corte de caracteres.

5. Reconhecimento de caracteres

No início, havia correspondência de modelo e, posteriormente, era principalmente extração de recursos. Devido à influência de fatores como deslocamento do texto, espessura do traço, caneta quebrada, adesão, rotação, etc., a dificuldade de extração é muito aumentada.

6. Recuperação de layout

Normalmente, as pessoas esperam que o texto reconhecido ainda seja organizado de acordo com a imagem do documento original, mantendo os parágrafos, posições e ordem inalterados, e depois enviado para um documento do Word ou documento PDF.Este processo é chamado de restauração de layout.

7. Pós-processamento e verificação

Em diferentes ambientes de linguagem, a ordem lógica das linguagens é diferente. Portanto, é necessário corrigir os resultados reconhecidos de acordo com o contexto dos recursos da linguagem, e esse processo é o pós-processamento.