前回の記事ではPDF内の英語と中国語を一括識別する方法を紹介しましたが、詳しくは【Pythonクローラー】PDF内の英語を一括識別して中国語に自動翻訳する をご覧ください。PDF ドキュメントを英語から中国語に自動的に変換するだけでなく、PDF 内の英語をバッチ識別し、中国語に自動翻訳する [Python クローラー] を参照してください。
この記事では、PDF 内の英語の文字数をカウントするために Python を実装します。
1. PDF文書の文字数をカウントする
まず、文字数をカウントする必要がある PDF がどのようなものかを見てみましょう。
簡単かつ明確にするために、この記事では英語の PDF の 2 ページの文字を数える例を使用しますが、このコードは英語の PDF の任意の数のページに直接適用できます。
2. PDF内の文字を認識する
次に、pdfplumber ライブラリを使用して PDF 内の文字を識別します。具体的なコードは次のとおりです。