爬虫類の分類
:構造および実装技術によるウェブクローラーシステムは、大きく分けて次のタイプに分けることができる一般的なクローラ、ウェブクローラ集束、インクリメンタルウェブクローラ、深いウェブクローラ。実際のシステムを達成するために組み合わせる、典型的には、いくつかのWebクローラークローラー技術
ユニバーサルのWebクローラ
また、ネットワーク全体のクローラ(スケーラブルなウェブクローラ)として知られている一般的なWebクローラー、、Web全体に拡大シードURLの一部からオブジェクトをクロールするには、大規模なWebサービスプロバイダやデータ収集のために主にエンジンのポータルサイトを検索します。
以下のための偉大な範囲と、そのようなクロールのWebクローラの数、クリープ速度と高いストレージ要件ページ順序要件が比較的低く、あまりにも多くのページがリフレッシュされるので、通常は並列作業が、それは長くかかりをクロールするためページを更新するための時間。
簡単に言えば、それは、インターネット上のすべてのデータをクロールすることです。
フォーカスのWebクローラ
また、テーマクローラ(話題のインフォクローラ)として知られているフォーカスクローラは、(クローラを重視)、を指し、選択ウェブクローラの事前定義されたテーマに関連するページを持つものをクロール。
そして、一般的なWebクローラーがページのトピックに関連するクロールだけフォーカス爬虫類に比べ、高速更新の少数のためにも、ハードウェアおよびネットワークリソース、保存されたページとの大幅な節約が、特定の集団のための特定の領域の数を満たすことができます需要情報。
そのインターネット上でクロールされたデータのみ、特定の種類の単純な手段。
インクリメンタルウェブクローラ
インクリメンタルウェブクローラ(インクリメンタルウェブクローラは)を参照するだけ増分更新し、新たに生成されたクロール爬虫類またはダウンロードページに行われたページの変更を取って、それははるかに新しい可能な限り、ある程度そのクロールページを確保することができますページ。
必要なときとWeb定期クローラーのクロールと増分クロールの爬虫類に比べてページを更新し、新しいページまたは更新をのみ生成されますが、発生していない再ダウンロードページにタイムリーに、効率的にデータのダウンロードの量を減らすことができない変更を行います更新ページには、クロール時間と空間のコストを削減しますが、アルゴリズムと実装難易クロールの複雑さを増大させてきました。
簡単に言えば、私たちはただ、インターネット上で更新されたデータをつかむています。
ディープのWebクローラ
Webページはによって存在に分けることができ、表面のWebページ(表面ウェブ)と深いウェブ(も目に見えないWebページまたは非表示のWebとして知られている深層ウェブ、)。
表面ページはインデックス静的なページのハイパーリンクにページがメインのWebページ構成に達することができ、従来の検索エンジンを指します。
深層ウェブコンテンツのほとんどは、静的リンクによって得られた検索フォームに隠された、唯一のユーザーは、いくつかのキーワードで取得するWebページを送信することができないということです。