Python conta o número de palavras em inglês em pdf

O artigo anterior forneceu um método para identificação de lote de chinês e inglês em PDFs. Para obter detalhes, consulte [python crawler] Identificação de lote de inglês em PDFs e tradução automática para chinês . Além de converter automaticamente documentos PDF de inglês para chinês, consulte [python crawler] para identificação em lote de inglês em PDFs e tradução automática para chinês .
  
Este artigo implementa Python para contar o número de caracteres ingleses em PDF.


  

1. Documentos PDF para contar caracteres

  
Primeiro, vamos dar uma olhada na aparência do PDF que precisa contar caracteres.

Insira a descrição da imagem aqui

Por uma questão de simplicidade e clareza, este artigo toma como exemplo a contagem de caracteres de duas páginas de um PDF em inglês. O código pode ser aplicado diretamente a qualquer número de páginas de um PDF em inglês.

  
  

2. Reconhecer caracteres em PDF

  
Em seguida, use a biblioteca pdfplumber para identificar caracteres em PDF. O código específico é o seguinte:

 

Acho que você gosta

Origin blog.csdn.net/qq_32532663/article/details/132939556
Recomendado
Clasificación