あなたはどのようなPDFはいと確かに精通しています。実際に、彼らは最も重要で、最も広く使用されているデジタルメディアの一つです。ポータブルドキュメントフォーマットのPDFに代わっ。これは、.pdf拡張子を使用しています。安全に交換文書を表示するために使用し、オペレーティングシステムやソフトウェア、ハードウェアに依存しないです。
PDFはアドビシステムズ社によって発明された、オープンな標準を維持するために、今、国際標準化機構(ISO)です。PDFは、リンクやボタン、フォームフィールド、オーディオ、ビデオ、およびビジネス・ロジックが含まれていてもよいです。
この記事では、我々は以下のようなさまざまな操作を実行する方法を学びます。
- PDFから抽出テキスト
- 回しPDFページ
- スプリットPDF
インストール
私たちは、サードパーティのモジュールPyPDF2を使用します。
PyPDF2は、 PythonライブラリのPDFツールキットを構築することです。これは、次の機能があります。
- 文書情報(タイトル、著者など)を抽出します
- ページでドキュメントページを分割
- ページによって差し込み印刷文書のページ
- トリミングページ
- 1ページに複数のページ
- 暗号化および復号化PDFファイル
- そして、はるかに!
PyPDF2をインストールするには、次のコマンドラインを実行します。
ピップインストールPyPDF2
このモジュール名はそう、大文字と小文字が区別され、Yを小文字にしてください、他のすべてのコンテンツが大文字です。このチュートリアル/記事のすべてのコードとPDFファイルがここで使用されています。
PDFファイルから1抽出テキスト
のは、上記のコードのブロックの形を理解してみましょう:
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
ここでは、PDFファイルオブジェクトを渡し、オブジェクトのPdfFileReaderクラスPyPDF2モジュールを作成し、PDFリーダーオブジェクトを取得します。
印刷(pdfReader.numPages)
NUMPAGESプロパティは、PDFファイルのページ数を提供します。例えば、我々の場合には、それは(出力の最初の行を参照)455でした。
pageObj = pdfReader.getPage(0)
今、私たちは、クラスのPageObject PyPDF2モジュールのオブジェクトを作成します。PDFリーダーオブジェクトは、引数と戻りページオブジェクトとしてGETPAGE()関数、(インデックス0から始まる)ページ番号を有しています。
印刷(pageObj.extractText())
PageオブジェクトPDFページからテキストを抽出するため、機能extractTextを()を有します。
pdfFileObj.close()
最後に、我々は、PDFファイルオブジェクトを閉じます。
注:人が読むと、印刷、テキストを配置する方法を、しかし、プレーンテキストを解析するためのソフトウェアを使用するようにするためにPDFファイルは非常に簡単ですがすることは簡単な作業ではありません。そのため、PDFからのエキスのテキストは、PyPDF2は、いくつかのPDFを開くことが間違っているか、できない場合があります。残念ながら、あなたは何もすることができません。PyPDF2は、特定のPDFファイルを使用できないことがあります。
2、PDFのページを回転させます
上記のコードに関連するいくつかの重要なポイント:
- 回転のために、私たちは最初に元のオブジェクトのPDFリーダーPDFファイルを作成します。
PDFWriterの= PyPDF2.PdfFileWriter()
ページが新しいPDFに書き込まれます回転させます。書き込みのpdfにするために、我々は、オブジェクトPdfFileWriterクラスPyPDF2モジュールを使用します。
ページの範囲内(pdfReader.numPages):
pageObj = pdfReader.getPage(ページ)
pageObj.rotateClockwise(回転)
pdfWriter.addPage(pageObj)
今、私たちは、元のPDFの各ページを反復します。私たちは、GETPAGE PDFリーダークラス()メソッドにより、ページオブジェクトを取得します。今、私たち()メソッドは、ページrotationClockwiseオブジェクトクラスによってページを回転させます。次に、ページをPDFライターに追加されるページオブジェクトののaddPage PDFファイルライタークラス()メソッドを使用して、オブジェクトの回転によって伝達されます。
newFile =オープン(newFileName、 'WB')
pdfWriter.write(にnewFile)
pdfFileObj.close()
newFile.close()
今、私たちは、新しいページのPDF pdfファイルを記述する必要があります。まず、我々は新しいファイルオブジェクトを開き、PDFライターオブジェクトのwrite()メソッドを使用しますが、それにPDFページを書き込みます。最後に、我々は、元のオブジェクトと新しいファイルオブジェクトのpdfファイルを閉じます。
3、分割PDFファイル
出力は3つの新しいそれぞれPDFファイル、スプリット1(P。0,1)、スプリット2(ページ2および3)、スプリット3(4ページの一番下)になります。
上記の手順は、Pythonの新しい関数やクラスを使用していません。シンプルなロジックおよび反復を使用して、我々はリストの分割納入に応じたPDFの分割送信を作成します。