0.5の概要
Heritrix、Nutchの、Scrapyクローラフレーム異なる側面、長所と短所の3つの焦点。
1.Heritrix
Heritrixは特別に、インターネット上のWebページへのウェブクローラをアーカイブするために開発されています。それは、完全にJavaとオープンソースで書かれています。その主なユーザー・インターフェースは、加えて、それはまた、選択するユーザーのために呼び出すためのコマンドラインツールを持っているWebトラフィックを介してアクセスすると、そのクローラの動作を介して制御することができます。
北欧諸国のインターネットアーカイブやライブラリによって標準化Heritrixジョイントは2003年初めに準備します。2004年1月の最初のリリース、および大幅に向上させるために、インターネットアーカイブやその他の興味の第三者であり続けます。そして今、それは成熟したオープンソースのクローラーとなっており、広く使われています。
公式サイト:https://sourceforge.net/projects/archive-crawler/
参考:https://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/
2.Nutch
Nutchのは、オープンソースのWebクローラプロジェクトで、より具体的には、Webクローラーで、直接Webコンテンツをクロールするために使用することができます。
Nutchのは、現在2つのバージョン1.xおよび2.xのに分かれています 最新バージョン1.xは1.7,2.x最新バージョンは2.2.1です。主な違いは、基礎となるストレージの2つの異なるバージョンです。
1.xのバージョンは、Hadoopのアーキテクチャ、HDFSを使用して基本的なストレージに基づいており、Apacheの強羅を使用して2.xではながら、NutchのはHBaseの、Accumulo、カサンドラ、MySQLの、DataFileAvroStore、AvroStoreおよびその他のNoSQLにアクセスすることができます。
公式サイト:http://nutch.apache.org/
3.Scrapy
PythonはScrapyがページから構造化データを、Webサイトをクロールし、抽出のための迅速、高レベルの画面スクレイピングやWebクロールフレームワークを開発しています。用途の広い範囲Scrapy、データマイニング、監視と自動テストのために使用することができます。GitHubのプロジェクトページ:https://github.com/scrapy/scrapy Scrapyツイスト非同期ネットワークは、ネットワークトラフィックを処理するためのライブラリを使用しています。
公式サイト:http://www.scrapy.org/
オリジナル:ビッグボックス 百二十から三の爬虫類のフレームワーク