Python cuenta el número de palabras en inglés en pdf

El artículo anterior proporcionó un método para la identificación por lotes de chino e inglés en archivos PDF. Para obtener más información, consulte [rastreador de Python] Identificación por lotes de inglés en archivos PDF y traducción automática al chino . Además de convertir automáticamente documentos PDF del inglés al chino, consulte [rastreador de Python] para identificar por lotes el inglés en archivos PDF y traducirlos automáticamente al chino .
  
Este artículo implementa Python para contar la cantidad de caracteres en inglés en PDF.


  

1. Documento PDF para contar caracteres

  
Primero, echemos un vistazo a cómo se ve el PDF que necesita contar caracteres.

Insertar descripción de la imagen aquí

En aras de la simplicidad y la claridad, este artículo utiliza como ejemplo el conteo de caracteres de dos páginas de un PDF en inglés. El código se puede aplicar directamente a cualquier número de páginas de un PDF en inglés.

  
  

2. Reconocer caracteres en pdf

  
Luego use la biblioteca pdfplomber para identificar caracteres en el PDF. El código específico es el siguiente:

 

Supongo que te gusta

Origin blog.csdn.net/qq_32532663/article/details/132939556
Recomendado
Clasificación