爬虫類フレーム一二〇から三

0.5の概要

Heritrix、Nutchの、Scrapyクローラフレーム異なる側面、長所と短所の3つの焦点。

1.Heritrix

Heritrix

Heritrixは特別に、インターネット上のWebページへのウェブクローラをアーカイブするために開発されています。それは、完全にJavaとオープンソースで書かれています。その主なユーザー・インターフェースは、加えて、それはまた、選択するユーザーのために呼び出すためのコマンドラインツールを持っているWebトラフィックを介してアクセスすると、そのクローラの動作を介して制御することができます。

北欧諸国のインターネットアーカイブやライブラリによって標準化Heritrixジョイントは2003年初めに準備します。2004年1月の最初のリリース、および大幅に向上させるために、インターネットアーカイブやその他の興味の第三者であり続けます。そして今、それは成熟したオープンソースのクローラーとなっており、広く使われています。

公式サイト:https://sourceforge.net/projects/archive-crawler/

参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/

2.Nutch

Nutchの

Nutchのは、オープンソースのWebクローラプロジェクトで、より具体的には、Webクローラーで、直接Webコンテンツをクロールするために使用することができます。

Nutchのは、現在2つのバージョン1.xおよび2.xのに分かれています 最新バージョン1.xは1.7,2.x最新バージョンは2.2.1です。主な違いは、基礎となるストレージの2つの異なるバージョンです。

1.xのバージョンは、Hadoopのアーキテクチャ、HDFSを使用して基本的なストレージに基づいており、Apacheの強羅を使用して2.xではながら、NutchのはHBaseの、Accumulo、カサンドラ、MySQLの、DataFileAvroStore、AvroStoreおよびその他のNoSQLにアクセスすることができます。

公式サイト:http://nutch.apache.org/

3.Scrapy

Scrapy

PythonはScrapyがページから構造化データを、Webサイトをクロールし、抽出のための迅速、高レベルの画面スクレイピングやWebクロールフレームワークを開発しています。用途の広い範囲Scrapy、データマイニング、監視と自動テストのために使用することができます。GitHubのプロジェクトページ:https://github.com/scrapy/scrapy Scrapyツイスト非同期ネットワークは、ネットワークトラフィックを処理するためのライブラリを使用しています。

公式サイト:http://www.scrapy.org/

オリジナル:ビッグボックス  百二十から三の爬虫類のフレームワーク


おすすめ

転載: www.cnblogs.com/wangziqiang123/p/11618272.html