Pythonのクローラは通常、どのようなフレームワークを使うのか?ファイブ共通のフレームワークを導入しました!

  Pythonのクローラは、通常使用しているもののフレームワーク?私たちは多くのことを理解し、Pythonのフレームワーク爬虫類何?はじめに導入するので、大企業のために、Pythonのフレームワークは、非常に重要であることをとても良いフレームワーク?Pythonの開発5つの一般的なタイプ。

  1、Scrapy:Scrapyは、アプリケーション・フレームワークに書き込まれたデータ、抽出構造化データをクロールするためのウェブサイトです。アプリケーションは、処理、または履歴データの直列に保存され、プログラムデータマイニングを含めることができます。このような明確な状況のURLパターンを知ることができるような単純なページのクロールを満たすために非常に強力な爬虫類のフレームワークです。このフレームワークでは、データは簡単なアマゾンなどの商品情報を降りることができます。しかし、このようなweiboに関する情報のページなど、もう少し複雑なページのために、このフレームワークは、ニーズを満たしていないだろう。その特徴は:HTML、XMLソースデータの選択とビルトインサポートの抽出;一連のフィルタを提供スパイダー(即ちアイテムローダー)との間で共有多重化することができる、クロール処理インテリジェントデータは内蔵のサポートを提供。

  2、PySpider:pyspiderはPythonの実装で強力なWebクローラシステムで、スケジューリング結果をクロール共通のバックエンドデータベースを使用して、ブラウザインタフェース、機能やリアルタイムの視聴のクロール結果で書かれたスクリプトすることができストレージは、だけでなく、定期的なタスクとタスクの優先度を設定します。

  3は、クローリー:リレーショナルおよび非リレーショナルデータベースをサポートするために、サイトに対応したクローリー高速クロールコンテンツ、データはJSON、XMLなどとしてエクスポートすることができます。

  4、ポーシャは:ユーザーが単に彼らが興味のあるページに注釈を付ける任意のプログラミング知識を必要とせずにサイトをクロールすることを可能にするオープンソースの可視化クローラツールであり、ポーシャは、同様のページから抽出データにスパイダーを作成します!簡単に言えば、scrapyカーネルに基づいており、可視化コンテンツをクロール、あらゆる開発の専門知識を必要とせず、動的なコンテンツは、同じテンプレートを一致させます。

  5、グラブ:グラブがWebスクレイパーを構築するためのPythonのフレームワークです。グラブを使用すると、複雑な非同期ウェブサイトのクローラーのページの何百万人を処理するために、単純な5行のスクリプトから、複雑なWebクローラーを構築することができます。グラブは、HTMLドキュメントのDOMツリーと対話するために、例えば、ネットワーク要求を実行し、受信したコンテンツを処理するためのAPIを提供します。

  これらは、5つのフレームワークは異なっている、5つの共通の枠組みが主流Pythonの爬虫類を導入している、我々は彼らのニーズに応じた実践的なシーンを判別することができます。

おすすめ

転載: blog.51cto.com/14596632/2456086