PDFの撤退フォームWebツール--Excalibur

  前回の記事で代替爬虫類:PDFファイルは表形式のデータをクロールから、我々は、Pythonプログラムを書き込むことにより、PDF内の表形式のデータを抽出するために、Pythonのキャメロットモジュールを使用する方法を知っています。この記事では、より便利なツールでPDFからテーブルを抽出する方法を学びます。
  エクスカリバーは、PDFからの表形式のデータを抽出するために使用されるWebベースのツールであり、それはキャメロット的に正確です。ツールは現在、PDFのテキストタイプをサポートしており、その指示に、PDFスキャンした文書をサポートし、Webサイトを参照することができ、文書を使用していません:https://github.com/camelot-dev/excalibur

インストールエクスカリバー

  エクスカリバー、Ghostscriptをインストールする必要をインストールする前に、参照は、特定のインストール場合がありますhttps://camelot-py.readthedocs.io/en/master/user/install-deps.htmlウェイ異なるシステムが同じではないGhostscriptをインストールし、Macコンピュータの作者は、例えば、インストールコマンドは次のように:

$ brew install tcl-tk ghostscript

インストール後Ghostscriptが取り付けピップエクスカリバー、次のコマンドで完了する、と:

$ pip3 install excalibur-py

それは、すべての仕事に準備ができてインストールです。

エクスカリバーを使用して起動します

  エクスカリバーを開始するには、次のコマンドを実行します。

$ excalibur initdb
$ excalibur webserver

コマンドは、サーバーのサービスを実行した後に、コマンドの前に、データベースを初期化することです。ブラウザでは、次のように入力しますHTTPを:// localhostを:5050、あなたはプラットフォームを使用することができます。
  抽出プラットフォームにPDFフォーム、ホームは、次のとおりです。

抽出プラットフォームのホームへのPDFフォーム
私は、PDFには、次の表が含まれてテストしました:

コンテンツの例表

私たちは、テーブルが配置されているとし、適切なPDF文書やページ番号を選択し、「アップロードPDF」ボタンをクリックして、これらのプラットフォームへのPDFドキュメントをアップロードします。アップロードPDFた後、以下の表は示されているページ:

アップロードページのPDFた後、

選択Anvancedの「格子」のフレーバー右側を、以下に示すように、マウスでテーブルボックス領域を選択します。

どこの表領域を選択します

「表示およびダウンロードデータ」ボタンをクリックすると、あなたはテーブルを解析PDFからデータを取得することができます。次のようにショットは、以下のとおりです。

分析結果の表

私たちは、この表の結果を保存したい場合は、解析されたファイルである、あなたは、ダウンロードの隣にあるドロップダウンボックスの形式で保存を選択し、[ダウンロード]ボタンをクリックすることができます。例えば、私は次のようにファイルをダウンロードし、CSVファイルとして保存を選択します。

"Method","Precision","Recall","F-measure"
"(S1) SP-CCG","67.5","37.2","48.0"
"(S1) SP-CFG","71.1","39.2","50.5"
"(S1) K4","70.3","26.3","38.0"
"(S2) SP-CCG","63.7","41.4","50.2"
"(S2) SP-CFG","65.5","43.8","52.5"
"(S2) K4","67.1","35.0","45.8"
"","Table 5: Extraction Performance on ACE.","",""

私たちは、テーブルはまだ非常に美しいですパース後に結果を見ることができます。

  シェアは、読書のためのおかげで終わりました。

注意:私は今、開かれたマイクロチャネル公共数:Pythonのクローラとアルゴリズム(マイクロ・シグナルなど:easy_web_scrape)、歓迎の注意ああ~~

おすすめ

転載: www.cnblogs.com/jclian91/p/12045817.html