詳細な枠組みScrapy

I.はじめに:scrapyはプロ、効率的なクローラフレームであり、それはlxmlの(プロXML処理パケット)を使用して特殊なツイストパケット効率的なネットワーク通信を使用して、有用な情報をHTMLページ処理のcssselect効率的な抽出、それにも効率的なスレッド管理を提供し、爬虫類のフレームワークは、ソフトウェア・アーキテクチャおよび機能部品は、爬虫類の機能のコレクションを達成することである、爬虫類のフレームワークは、それがプロのWebクローラを達成するためにユーザーを助けることができる、半製品であります

第二に、インストール:pipenvはscrapyをインストール

第三に、構造:5 + 2構造

5つのモジュールは、次のとおりエンジンブロック+スパイダーモジュール(入口フレーム)+スケジューラモジュール+ダウンローダモジュール+商品パイプライン(出口フレーム)モジュール

2ミドルウェアは以下のとおりです。spiderMiddlewareとdownloaderMiddleware

記事データの流路3:

1️⃣:ブロックを介してスパイダーモジュールスケジューラ・モジュールは、エンジン(リクエストリクエスト)に到達します

2️⃣:スケジューラ・モジュールはバックスパイダーにダウンローダモジュール・エンジン・モジュール、データモジュールに到達します

3️⃣spiderエンジンモジュールと、それぞれの項目パイプラインモジュールスケジューラモジュールを実現するモジュール

三つは、エンジンモジュールの機能:(コア全体のフレームワークは、条件トリガイベントに応じて、データ・ストリームのすべてのモジュールを制御します)

1)ダウンローダモジュール:(要求に応じてダウンロードページ)

2)スケジューラ:スケジュールの責任

3)項目パイプラインモジュール:パイプラインと同様の動作のセット配列によって生成されたスパイダーアイテムをクロールパイプライン方式、各操作は、項目Piplinesの一種であります

4)クモ:ダウンローダ)返された応答(レスポンス)、追加の要求を生成し、アイテムがクロール生産クロールする(リクエストを解析し、

四、ダウンローダーミドルウェア:

本実施形態のエンジン、スケジューラとダウンローダとの間にユーザーが設定可能なコントロール:オブジェクト

機能:レビュー、することができ、廃棄、またはユーザの要求に新しい応答は、構成コードを編集します

 

おすすめ

転載: www.cnblogs.com/wangyue0925/p/11233188.html