Detectar faltando mapeamento / corrupto Unicode em PDF - Code World

Detectar faltando mapeamento / corrupto Unicode em PDF

Others 2022-04-22 13:59:33 views: 0

Magpies3:

Enquanto extrair texto de alguns retornos PDFs PDFBox jargão. Isso é por causa de um mapeamento Unicode em falta ou danificado. Eu posso ver seguintes avisos no console. Eu quero ser capaz de detectar que este seja capaz de bandeira desses PDFs como corrupto.

Eu estou procurando uma solução que é melhor do que os registros de análise.

Obrigado pela ajuda!

Amostra Console Logs:

WARNING: No Unicode mapping for CID+32 (32) in font F6
WARNING: Failed to find a character mapping for 32 in TimesNewRoman,Bold

Abaixo mencionados pós também fala sobre a mesma questão, mas não falar sobre maneiras de ser capaz de detectar isso no lado de código e manipular o mesmo: Problema com leitura de alguns caracteres Unicode para fora de um PDF usando PDFBox

Tilman Hausherr:

Uma quarta possibilidade (ao lado do três dada em resposta Aaron Digulla) é substituir showGlyph()quando se prolonga a PDFTextStripperclasse:

protected void showGlyph(Matrix textRenderingMatrix, PDFont font, int code, String unicode, Vector displacement) throws IOException
{
    super.showGlyph(textRenderingMatrix, font, code, unicode, displacement);
    if (unicode == null || unicode.isEmpty())
    {
        // do stuff
    }
}

Acho que você gosta

Origin http://43.154.161.224:23101/article/api/json?id=201323&siteId=1

Detectar faltando mapeamento / corrupto Unicode em PDF

AWS Lambda e S3 - uploaded file pdf está em branco / corrupto

DrawerLayout em AndroidX está faltando?

PDFDomTree não detectar espaços em branco ao converter um arquivo pdf para html

Mapeamento de mapa e mapeamento de flatMap em scala

3 maneiras de detectar arrays em JavaScript!

"Faltando colunas em relação" ao criar a tabela

primeira faltando inteiro positivo em uma matriz usando javascript?

Mapeamento de intervalo para intervalo em Python

Mapeamento de resultado em mapper.xml

problema com mapeamento bidirecional @OneToMany em springboot

Determine quais arquivos estão faltando em uma pasta em relação a outra

PDFBox 2.0: como detectar texto em negrito aqui

Detectar quando ServerSocketChannel fecha quando em selector.select ()

Como detectar a entrada não numérica diferente em Java?

Quem é melhor em detectar deepfakes? Humano ou máquina?

enormes arquivos de mapeamento de memória em Java

Como usar um para muitos mapeamento em java 8 stream?

Mapeamento, agregar e compõem totais usando Java 8 Streams

Mapeamento de tabelas associadas do mesmo tipo em JOOQ

Ignorar RootNode e mapeamento personalizado em Jackson / primavera / Java

Преобразование из кодировки Unicode в байты

golang sqlx err faltando id nome do destino em * main.User

Ao usar o método FastJson parseObject, string JSON analisado em objetos, alguns atributos faltando Problema

Os arquivos do jogo necessários para inicializar a biblioteca global de shaders estão faltando em:

Usar o mapeamento de objetos em vez de if-else em js pode ser muito elegante!

Converter Unicode hexadecimal em caracteres chineses (python3)

Mesclar vários arquivos PDF em um PDF em Java

Exportar relatório em PDF

Converter python pdf em imagem

Recomendado

Clasificación

Diario

Más

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(0)

2024-06-03(0)

2024-06-02(0)

2024-06-01(0)

2024-05-31(0)

2024-05-30(0)

2024-05-29(0)