PythonはPDFテーブルデータを抽出してExcelに保存します

pdfplumber は PDF ファイルを操作します

Python オープンソース ライブラリ pdfplumber は、PDF の基本情報 (作成者、作成時刻、変更時刻...) や表、テキスト、画像などの情報を含む、基本的に比較的単純な形式を満たす PDF のさまざまな情報をより簡単に取得できます。変換機能。
1. pdfplumber のインストールとインポート
他のパッケージと同様に、pip インストールをサポートしています。インストール コマンドは次のとおりです。

pip install pdfplumber

ここに画像の説明を挿入します
インストールが成功したら、インポートを直接使用してインポート コマンドをインポートできます。

import pdfplumber

2. pdfplumber の基本的な使い方
1. 基礎知識(1) pdfplumberには PDF と Page という
2 つの基本クラスがあり、 PDF は文書全体を処理する場合に使用され、Page はページ全体を処理する場合に使用されます。

親切 使い方の紹介
pdf配管工.PDF .metadata は、PDF の基本情報を取得し、作成者、作成時刻などを含む辞書形式で返します。.pages、pdfplumber.Page インスタンスのリストを返します。各インスタンスには PDF の各ページに関する情報が含まれています
pdf配管工.ページ pdfplumber のコア機能。テキストや表などの抽出を含む、PDF 上のほとんどの操作はこのクラスに基づいています。

(2) pdfplumber が PDF ファイルを読み取る方法

pdfplumber.open('file path') は、pdfplumber.PDF クラスのインスタンスを返します。
PDF にパスワードがある場合は、パスワード パラメータを追加します:
pdfplumber.open('file path',password='password')

2. PDFの基本情報を取得する

pdfファイルを読み込み、pdfファイルの基本情報を出力します。

import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open(r'test.pdf')
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print('pdf文件的基础信息:\n', meta_data)
print('pdf共%s页' % page_con)

ここに画像の説明を挿入します
3. PDFplumber によるテーブル データの抽出
Extract_tables() と extract_table() は主にテーブル データの抽出に使用され、これら 2 つの抽出方法は異なります。
次の PDF ドキュメントをデモドキュメントとして使用してください。

おすすめ

転載: blog.csdn.net/LHJCSDNYL/article/details/124207996