El artículo anterior proporcionó un método para la identificación por lotes de chino e inglés en archivos PDF. Para obtener más información, consulte [rastreador de Python] Identificación por lotes de inglés en archivos PDF y traducción automática al chino . Además de convertir automáticamente documentos PDF del inglés al chino, consulte [rastreador de Python] para identificar por lotes el inglés en archivos PDF y traducirlos automáticamente al chino .
Este artículo implementa Python para contar la cantidad de caracteres en inglés en PDF.
Directorio de artículos
1. Documento PDF para contar caracteres
Primero, echemos un vistazo a cómo se ve el PDF que necesita contar caracteres.
En aras de la simplicidad y la claridad, este artículo utiliza como ejemplo el conteo de caracteres de dos páginas de un PDF en inglés. El código se puede aplicar directamente a cualquier número de páginas de un PDF en inglés.
2. Reconocer caracteres en pdf
Luego use la biblioteca pdfplomber para identificar caracteres en el PDF. El código específico es el siguiente: