Linuxでは、書き込み爬虫類(a)はPythonで

 参考図書:2018年4月に初版を「のpython3のWebクローラーは、戦闘を開発しました」

システム:UbuntuのLTS 18.04.2

背景:たTesseractがインストールされているだけでなく、多言語パックtessdata

インストールコマンド:PIP3はtesserocr枕をインストール

エラー:

tesserocr収集する
https://files.pythonhosted.org/packages/92/2d/05a7f8387e93c192919b508e4f4936f232bd3d2ca388b9130ae538a9f9ad/tesserocr-2.4.0.tar.gzキャッシュされた使用して
枕を収集
https://files.pythonhosted.org/packages/d2/c2をキャッシュされた使用します/f84b1e57416755e967236468dcfb0fad7fd911f707185efc4ba8834a1a94/Pillow-6.0.0-cp36-cp36m-manylinux1_x86_64.whl
収集パッケージのビルホイール:tesserocr
tesserocr ...エラーのために実行setup.py bdist_wheel
コマンドは/ usr / binに/のpython3 -u -c「輸入setuptoolsのより完全な出力、トークン化; __ __ファイル= 'を/ tmp / PIP-ビルドn7t6st2b / tesserocr / setup.py'; = GETATTR(トークン化、 'オープン'、開放F )(。__)__ファイル;コード= f.read()( '\ rを\ n'は、 '\ n'を)置き換える; f.close();のexec(コンパイル(コード、__FILE__ 'EXEC'))」bdist_wheel - D / TMP / tmpn73hfamcpip-wheel- --pythonタグcp36:
たTesseract v4.0.0-beta.1の支援
PKG-設定からConfigsにする:{ 'include_dirs':[ 'は/ usr /含める']、 'ライブラリ':[」 lept」、 'たTesseract']、 'cython_compile_time_env' { 'TESSERACT_VERSION':60397825}}
/usr/lib/python3.6/distutils/dist.py:261:UserWarning:不明配信オプション: 'long_description_content_type'
警告。(MSG)を警告する
bdist_wheelの実行中
、実行中のビルド
にbuild_ext実行されている
「tesserocr」拡張を構築します
作成ビルド
ビルド作成/ temp.linux-x86_64-3.6
x86_64版-のlinux-gnuの-gccの-pthread -DNDEBUG -g -fwrapv -O2 -Wall -g -fstack-プロテクター-強い-Wformat -Werror =形式セキュリティ-Wdate-時間-D_FORTIFY_SOURCE = 2 -fPIC -Iは/ usr /含ま-Iは/ usr /含める/ python3.6m -c tesserocr.cpp -o構築/ temp.linux-x86_64-3.6 / tesserocr.o -std = C ++ 11 -DUSE_STD_NAMESPACE
tesserocr.cpp:42:10:致命的なエラー:はPython.h:そのようなファイルやディレクトリ
の#include "はPython.h"
^ ~~~~~~~~~
コンパイル終了。
エラー:コマンド'x86_64版-のlinux-gnuの-gccは'終了ステータス1で失敗しました

--------------------------------- -------
tesserocrのため失敗しました建物ホイール
tesserocrのためのクリーンな実行setup.pyは
tesserocrを構築するために失敗しました。
tesserocr、枕:収集したパッケージのインストール
実行中はtesserocrためsetup.py installを...エラー
/ __ファイル__ = 'を/ tmp / PIP-ビルドn7t6st2b;コマンドは/ usr / binに/のpython3 -u -c「輸入setuptoolsの、トークン化から完全な出力tesserocr / setup.py '; = GETATTR(トークン化、F 'オープン'、オープン)(__ファイル__);コード= f.read()を置き換える。(' \ R \ n」は、 '\ n'); f.close( );のexec(コンパイル(コード、__FILE__ 'EXEC'))」をインストール--record /tmp/pip-7bsa_hbd-record/install-record.txt --single-バージョン-外部管理--compile --user - -prefix =
たTesseract v4.0.0-beta.1の支援
PKG-設定からConfigsにする:{ 'include_dirs':[ '/ / usrが含ま']、 'ライブラリ':[ 'lept'、 'たTesseract']、 'cython_compile_time_env' :{ 'TESSERACT_VERSION':60397825}}
/usr/lib/python3.6/distutils/dist.py:261:UserWarning:不明な配布オプション: 'long_description_content_type'
warnings.warn(MSG)
インストールを実行
、実行中のビルド
にbuild_ext実行されている
'tesserocr'拡張を構築する
構築作成
構築/ TEMP作成します。 linux-x86_64-3.6
x86_64版-のlinux-gnuの-gccの-pthread -DNDEBUG -g -fwrapv -O2 -Wall -g -fstack-プロテクター-強い-Wformat -Werror =形式セキュリティ-Wdate-時間-D_FORTIFY_SOURCE = 2 -fPIC -Iは/ usr /含ま-Iは/ usr /含める/ python3.6m -c tesserocr.cpp -o構築/ temp.linux-x86_64-3.6 / tesserocr.o -std = C ++ 11 -DUSE_STD_NAMESPACE
tesserocr.cpp:42 :10:致命的なエラー:はPython.h:そのようなファイルやディレクトリ
の#include "はPython.h"
^ ~~~~~~~~~
コンパイルが終了しました。
エラー:コマンド 'x86_64版 - のlinux-gnuの-gccが' 終了ステータス1で失敗しました

 

解決策:新しいインストールコマンドに置き換え  須藤はaptインストールしたTesseract OCR-を

(PS:コマンドの書籍版のオリジナルバージョンとのこの差はあるかもしれない、このバージョンでは、枕に適したバージョンではありません。)

(PPS:。 枕は、  アレックス・クラークコントリビュータによる優しいPILフォークです。PILは、Pythonの  フレドリックLundhにコントリビュータによるイメージングライブラリ。)

 

これは次のように読み取ります。

Linuxは、
あなたは、単にあなたのUbuntu 18.xxは、バイオニック上で次のコマンドを実行することができたTesseract 4.xをインストールするには:

須藤はapt-たTesseract OCRをインストールする
次のコマンドを実行し、訓練のために使用することができる開発者ツールをインストールしたい場合は:

須藤はaptインストールlibtesseract-devを
以下の手順は、オペレーティング・システムのような他のUNIXにも適用することができますLinuxでは、上で構築するためのものです。

依存関係
GCCまたはクラン:CおよびC ++コンパイラ
GNU Autotool群:のautoconf、automakeに、のlibtool
のpkg-config設定
Leptonica
のlibpng、のlibjpeg、libtiffのを

Ubuntuの
彼らがすでにインストールされていない場合は、次のライブラリ(Ubuntuの16.04 / 14.04)が必要です。

須藤はapt-getをインストールG ++#または打ち鳴らす++(おそらく)
須藤はapt-getをインストールしたautoconfのautomakeにするのlibtool
はsudo apt-getをインストールPKG-設定
はsudo apt-getをインストールlibpngを-devの
須藤はapt-getをインストールlibjpeg8-devの
須藤はapt-getをインストールlibtiff5 -devの
須藤はapt-getをあります:zlib1g-devのインストール
あなたがトレーニングツールをインストールすることを計画している場合、あなたはまた、次のライブラリが必要になります。

須藤はapt-getをインストールlibicu-devのの
須藤はapt-getをインストールlibpango1.0-devのの
須藤はapt-getをインストールlibcairo2-devの

 

オリジナル住所:  https://github.com/tesseract-ocr/tesseract/wiki/Compiling

おすすめ

転載: www.cnblogs.com/chowkaiyat/p/10958834.html