前回の記事で代替爬虫類:PDFファイルは表形式のデータをクロールから、我々は、Pythonプログラムを書き込むことにより、PDF内の表形式のデータを抽出するために、Pythonのキャメロットモジュールを使用する方法を知っています。この記事では、より便利なツールでPDFからテーブルを抽出する方法を学びます。
エクスカリバーは、PDFからの表形式のデータを抽出するために使用されるWebベースのツールであり、それはキャメロット的に正確です。ツールは現在、PDFのテキストタイプをサポートしており、その指示に、PDFスキャンした文書をサポートし、Webサイトを参照することができ、文書を使用していません:https://github.com/camelot-dev/excalibur。
インストールエクスカリバー
エクスカリバー、Ghostscriptをインストールする必要をインストールする前に、参照は、特定のインストール場合がありますhttps://camelot-py.readthedocs.io/en/master/user/install-deps.html。ウェイ異なるシステムが同じではないGhostscriptをインストールし、Macコンピュータの作者は、例えば、インストールコマンドは次のように:
$ brew install tcl-tk ghostscript
インストール後Ghostscriptが取り付けピップエクスカリバー、次のコマンドで完了する、と:
$ pip3 install excalibur-py
それは、すべての仕事に準備ができてインストールです。
エクスカリバーを使用して起動します
エクスカリバーを開始するには、次のコマンドを実行します。
$ excalibur initdb
$ excalibur webserver
コマンドは、サーバーのサービスを実行した後に、コマンドの前に、データベースを初期化することです。ブラウザでは、次のように入力しますHTTPを:// localhostを:5050、あなたはプラットフォームを使用することができます。
抽出プラットフォームにPDFフォーム、ホームは、次のとおりです。
私は、PDFには、次の表が含まれてテストしました:
私たちは、テーブルが配置されているとし、適切なPDF文書やページ番号を選択し、「アップロードPDF」ボタンをクリックして、これらのプラットフォームへのPDFドキュメントをアップロードします。アップロードPDFた後、以下の表は示されているページ:
選択Anvancedの「格子」のフレーバー右側を、以下に示すように、マウスでテーブルボックス領域を選択します。
「表示およびダウンロードデータ」ボタンをクリックすると、あなたはテーブルを解析PDFからデータを取得することができます。次のようにショットは、以下のとおりです。
私たちは、この表の結果を保存したい場合は、解析されたファイルである、あなたは、ダウンロードの隣にあるドロップダウンボックスの形式で保存を選択し、[ダウンロード]ボタンをクリックすることができます。例えば、私は次のようにファイルをダウンロードし、CSVファイルとして保存を選択します。
"Method","Precision","Recall","F-measure"
"(S1) SP-CCG","67.5","37.2","48.0"
"(S1) SP-CFG","71.1","39.2","50.5"
"(S1) K4","70.3","26.3","38.0"
"(S2) SP-CCG","63.7","41.4","50.2"
"(S2) SP-CFG","65.5","43.8","52.5"
"(S2) K4","67.1","35.0","45.8"
"","Table 5: Extraction Performance on ACE.","",""
私たちは、テーブルはまだ非常に美しいですパース後に結果を見ることができます。
シェアは、読書のためのおかげで終わりました。
注意
:私は今、開かれたマイクロチャネル公共数:Pythonのクローラとアルゴリズム(マイクロ・シグナルなど:easy_web_scrape)、歓迎の注意ああ~~