Python implementiert PDF-Excel

Einfaches Konvertieren des PDF-Formats in Excel (implementiert mit Python)

Umsetzungsideen:

Um PDF in Excel zu konvertieren , können Sie die folgenden Schritte ausführen:

  1. PDF-Inhalt analysieren: Zunächst müssen Sie eine Drittanbieter-Bibliothek in Python (z. PyPDF2B. pdfminerusw.) verwenden, um den Inhalt der PDF-Datei zu analysieren. Diese Bibliotheken können Text, Tabellen und andere Elemente aus PDFs extrahieren .
  2. Tabellarische Daten extrahieren: Wenn das PDF Tabellen enthält , müssen geeignete Bibliotheken und Algorithmen verwendet werden , um die tabellarischen Daten zu identifizieren und zu extrahieren. Dies kann Vorgänge wie die Erkennung von Tabellengrenzen , das Zusammenführen von Zellen , die Textextraktion und die Datenstrukturierung umfassen .
  3. Erstellen Sie eine Excel-Datei: Erstellen Sie eine neue Excel-Datei oder öffnen Sie eine vorhandene Excel-Datei mithilfe von Excel-Bibliotheken in Python (z. B. Python openpyxlusw. ).pandas
  4. Daten in eine Excel-Datei schreiben: Schreiben Sie die aus PDF extrahierten Daten Zeile für Zeile oder Spalte für Spalte in ein Arbeitsblatt in einer Excel-Datei .

Wenn Sie eine bestimmte Datenseite einer PDF-Datei in eine Excel-Datei exportieren möchten, können Sie dazu Python-Codierung verwenden.

Das Bild unten zeigt die zu übertragende PDF-Datei:
Fügen Sie hier eine Bildbeschreibung ein

Python-Code:
import tabula
import pandas as pd


def extract_tables_from_pdf(pdf_path, excel_path):
    # 读取PDF文件中的所有表格
    tables = tabula.read_pdf(pdf_path, pages='all', multiple_tables=True)

    # 创建一个Excel写入器
    writer = pd.ExcelWriter(excel_path)

    # 将每个表格合并到一个数据框中
    merged_table = pd.concat(tables, ignore_index=True)

    # 将合并的表格写入Excel文件中的一个工作表
    merged_table.to_excel(writer, sheet_name='All Tables', index=False)

    # 保存Excel文件
    writer.close()


# 调用函数提取表格并保存到Excel文件
pdf_file = 'input.pdf'
excel_file = 'output.xlsx'
extract_tables_from_pdf(pdf_file, excel_file)

Der obige Code muss lediglich den Namen der Eingabedatei in Ihre Datei ändern.

Konvertierungsergebnis

Fügen Sie hier eine Bildbeschreibung ein

Konvertierung erfolgreich! ! !
Was ist die Tabula-Bibliothek?

Tabula ist eine Bibliothek zum Extrahieren tabellarischer Daten aus PDF-Dateien . Es wird hauptsächlich verwendet, um tabellarische Daten im PDF-Format in verwendbare Formate wie CSV- oder Excel-Dateien zu konvertieren. Tabula eignet sich besonders für die Verarbeitung von PDF-Dateien, die strukturierte tabellarische Daten enthalten, beispielsweise Finanzberichte, technische Dokumente oder andere tabellenintensive Dokumente. Hier sind einige der wichtigsten Funktionen von Tabula:

  1. Genauigkeit : Tabula ist in der Lage, Tabellendaten in PDFs genau zu identifizieren und zu extrahieren.
  2. Benutzerfreundlich : Tabula bietet eine benutzerfreundliche Oberfläche, über die Benutzer den zu extrahierenden Datenbereich auswählen können.
  3. Formaterhaltung : Format und Layout der Originaltabelle bleiben so weit wie möglich erhalten.
  4. Multiplattform-Unterstützung : Tabula ist für Windows-, Mac- und Linux-Betriebssysteme verfügbar.
  5. Programmierschnittstelle : Obwohl Tabula eine grafische Schnittstelle bietet, kann es über seine Programmierschnittstelle (API) auch in verschiedenen Programmierumgebungen wie Python verwendet werden.
  6. Open Source : Tabula ist ein Open-Source-Projekt, das es Benutzern ermöglicht, den Quellcode anzuzeigen und ihn nach Bedarf zu ändern.
    Die größte Einschränkung von Tabula besteht darin, dass es relativ hohe Formatanforderungen für PDF-Dateien stellt. Wenn das tabellarische Datenformat nicht standardisiert ist oder die Tabelle mit anderen Textelementen gemischt ist, ist der Extraktionseffekt von Tabula möglicherweise nicht ideal. Darüber hinaus ist Tabula nicht zum Extrahieren von Daten in nicht tabellarischer Form wie Absatztext, Bildern usw. geeignet.

Die Verwendung von Tabula in Python erfordert normalerweise die Installation tabula-pyder Bibliothek, bei der es sich um einen Python-Wrapper für Tabula handelt. Mithilfe dieser Bibliothek können Tabellendaten aus PDF-Dateien direkt in einem Python-Skript extrahiert werden.

abula-py`-Bibliothek, ein Python-Wrapper für Tabula. Mithilfe dieser Bibliothek können Tabellendaten aus PDF-Dateien direkt in einem Python-Skript extrahiert werden.

Supongo que te gusta

Origin blog.csdn.net/H931053/article/details/134898065
Recomendado
Clasificación