PythonはPDF内の英単語の数を数えます

前回の記事ではPDF内の英語と中国語を一括識別する方法を紹介しましたが、詳しくは【Pythonクローラー】PDF内の英語を一括識別して中国語に自動翻訳する をご覧ください。PDF ドキュメントを英語から中国語に自動的に変換するだけでなく、PDF 内の英語をバッチ識別し、中国語に自動翻訳する [Python クローラー] を参照してください。
  
この記事では、PDF 内の英語の文字数をカウントするために Python を実装します。


  

1. PDF文書の文字数をカウントする

  
まず、文字数をカウントする必要がある PDF がどのようなものかを見てみましょう。

ここに画像の説明を挿入します

簡単かつ明確にするために、この記事では英語の PDF の 2 ページの文字を数える例を使用しますが、このコードは英語の PDF の任意の数のページに直接適用できます。

  
  

2. PDF内の文字を認識する

  
次に、pdfplumber ライブラリを使用して PDF 内の文字を識別します。具体的なコードは次のとおりです。

 

おすすめ

転載: blog.csdn.net/qq_32532663/article/details/132939556