Scrapyスプラッシュ導入およびコード(A)の取り扱い

  前回のブログでは、我々は、動的なページフェッチ方式であるセレンの使用を学んだ、しかし、説明するために具体的な例と組み合わせて、ここでスプラッシュ方法を導入する他の方法は、ある動的なページをクロール。


A:スプラッシュはじめと準備

1.はじめに

  スプラッシュは、HTTP APIと軽量ブラウザで、ページの動的なレンダリングをクロールすることができ、それはjsのは、あなたが右、ページを考えると確信しています来て、Scrapyスプラッシュは、ツールをレンダリングJavaScrapyをサポートされているJavaScriptのレンダリングサービスであり、 。

2.インストール

  Scrapy-スプラッシュしたがって、我々は最初に適した各アプリケーションの分離を可能にする別個の「アプリケーション」を形成するためにパッケージ化されドッカー(マルチ容器技術、アプリケーションおよび環境をインストールする必要があり、ここでは、ドッカーでそれをインストールし、二つの方法が装備されています大規模なクローラシステム)、ダウンロードアドレスは次のとおりです。

  https://docs.docker.com/docker-for-windows/install/

  ダウンロードした後、表示されますドッキングウィンドウのデスクトップは、Windows 10のProまたはEnterpriseが必要ですバージョン15063 質問を。
問題がwindows10 Home Editionには、Hyper-Vのをサポートしていない、あなたがドッキングウィンドウをインストールすることはできませんされ、インストールさドッキングウィンドウのツールボックスをダウンロードする必要があります。アドレス:

  http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/は


  また、オンインストールすることができるのHyper-V、本明細書に具体的に記載されていません。

  正常に実行を示し、次のような結果になりますオープンCMDコンソールをインストールした後(インストールプロセスは、面倒である忍耐が必要です):

  ここではインストールされているScrapy-スプラッシュをインストールするコマンドは次のとおりです。

docker run -p 8050:8050 scrapinghub/splash

  ここでは、その後、私は、環境設定の問題に出てるし、次に仮想化技術は、しかしで、開かれているインテルの外に、インテル®バーチャライゼーション・テクノロジーにBIOSが有効に設定されていますが、あなたがドッキングウィンドウを実行したり、問題がある場合仮想マシンをvirutualBoxありません。ここのブログの後、我々はスプラッシュを説明していきまで待ちます。私たちはその理由を知っている必要があります場合は、あなたは私と通信することができます。



II:識別コード(1)

  今、多くのサイトは、検証コードでそのうちの1つは、対策の抗さまざまなクロールされています。そして、このコードは、現在、多くのがありますが、開発された、インタラクティブコードは、ますます人気となっている、最初に次のようにも爬虫類を仕事にますます困難になったマウス操作のためのより多くの必要性は、パイソンと共通の識別方法について説明しますグラフィックコード。

識別認証コードパターン

  CAPTCHAは、次のように一般的に、のは、オンラインいくつかの検証コードの写真を保存でき、文字と数字を持って、最初の認証コードで非常に一般的です。

図認識技術(1)を使用して、

  OCR技術:光学式文字認識は、文字のスキャンは、電子テキストに形状やその翻訳、プロセスを意味します。

(2)図に使用されるライブラリを同定。

  tesserocrライブラリ:ライブラリのPythonのOCR認識がカプセル化のたTesseract層を作られて、それはたTesseract、その後、tesserocrインストールをインストールする必要があり、インストールプロセスは、ここで話し不明です。

方法(3)識別を達成します
import tesserocr
from PIL import Image

image = Image.open('1.jpg')
result = tesserocr.image_to_text(image)
print(result)

前と写真の後に、次のように同定結果は以下のとおりです。

  また、確認コードを識別することができる他の方法がありますが、それは次のように、私たちは写真を変更する直接文字列に画像ファイルを変換するfile_to_text()メソッドを使用することです。

print(tesserocr.file_to_text('2.jpg'))

前と写真の後に、次のように同定結果は以下のとおりです。

  私たちは認識の結果を見ると、私たちは異なるものにしたいが、実際には、次のブログでは、ブロックされた行がどのように処理するかになります。

他の識別認証コードを次のように

おすすめ

転載: www.cnblogs.com/ITXiaoAng/p/11799090.html