scrapyプロセスモジュール機能 - 転送

Scrapyワークフローと、各モジュールの特定の役割

 

以下のように、どのプロセスを説明することがあります。
  1. オブジェクトを要求するように構成されたURL出発クローラ - >中間爬虫類 - >エンジン - >スケジューラ
  2. リクエストにスケジューラ - >エンジン - >ダウンロードミドルウェア--->のダウンローダ
  3. 取得応答に応じて、ダウンロードするリクエストを送信----> ----ダウンロードミドルウェア>エンジン---> ---クローラミドルウェア>爬虫類
  4. リクエストオブジェクトに組み立てURLクローラ、---->クローラミドルウェア---> ---エンジン>スケジューラを抽出し、手順を繰り返し2
  5. 爬虫類エキスデータ--->エンジン--->処理するためのパイプラインとストアデータ

注意:
  • 爬虫類やダウンロードしたミドルウェアミドルウェア論理演算だけ異なる位置は、アクションが繰り返されます。他の代替UA

概要

  1. scrapyコンセプト:Scrapyがデータをクロールするためのウェブサイトでは、書かれた構造化データアプリケーションフレームワークを抽出します
  2. scrapyフレームデータ転送処理および操作手順:
    1. オブジェクトを要求するように構成されたURL出発クローラ - >中間爬虫類 - >エンジン - >スケジューラ
    2. リクエストにスケジューラ - >エンジン - >ダウンロードミドルウェア--->のダウンローダ
    3. 取得応答に応じて、ダウンロードするリクエストを送信----> ----ダウンロードミドルウェア>エンジン---> ---クローラミドルウェア>爬虫類
    4. リクエストオブジェクトに組み立てURLクローラ、---->クローラミドルウェア---> ---エンジン>スケジューラを抽出し、手順を繰り返し2
    5. 爬虫類エキスデータ--->エンジン--->処理するためのパイプラインとストアデータ
  3. Scrapyアクションフレームワークは:速い少量のコードをつかみます
  4. 各モジュールscrapyマスタの役割:エンジン(エンジン):スケジューラモジュール(スケジューラ)の間で腰痛にデータや信号を伝送するための責任を負いませんされています。送信されたキュー要求を実装し、保存されたエンジンのダウンロード要求オブジェクト(ダウンローダー):送信取得に応答して、エンジンのクローラ(スパイダ)に応答して、エンジンを介して送信されるリクエストの要求:応答送信、処理エンジン、データ抽出、抽出URL、エンジンとパイプ(パイプライン)の全エンジンを介して送信処理データ、拡張機能をダウンロードするように設定するエージェントのIPクローラミドルウェア(クモミドルウェア)として、カスタマイズすることができます:このようにダウンロードミドルウェア(ダウンローダミドルウェア)を格納するよう要求し、濾過に応答要求をカスタマイズすることができ、アクションのミドルウェアのダウンロードを繰り返しました。

おすすめ

転載: www.cnblogs.com/jamnoble/p/10945598.html