O artigo anterior forneceu um método para identificação de lote de chinês e inglês em PDFs. Para obter detalhes, consulte [python crawler] Identificação de lote de inglês em PDFs e tradução automática para chinês . Além de converter automaticamente documentos PDF de inglês para chinês, consulte [python crawler] para identificação em lote de inglês em PDFs e tradução automática para chinês .
Este artigo implementa Python para contar o número de caracteres ingleses em PDF.
Diretório de artigos
1. Documentos PDF para contar caracteres
Primeiro, vamos dar uma olhada na aparência do PDF que precisa contar caracteres.
Por uma questão de simplicidade e clareza, este artigo toma como exemplo a contagem de caracteres de duas páginas de um PDF em inglês. O código pode ser aplicado diretamente a qualquer número de páginas de um PDF em inglês.
2. Reconhecer caracteres em PDF
Em seguida, use a biblioteca pdfplumber para identificar caracteres em PDF. O código específico é o seguinte: