意味:
Web スパイダーとも呼ばれる Web クローラー (Web Spider) は、特定のルールに従って Web サイト情報を自動的に取得するプログラムまたはスクリプトです。クローラーとは、実際には、プログラムを作成してインターネットを閲覧するようにブラウザーをシミュレートし、インターネットにアクセスしてデータを取得するプロセスです。
爬虫類の価値:
インターネットでデータを手に入れて、私に使ってください.大量のデータがあると、データバンクを持っているようなものです.次のステップは、これらのデータをどのように製品化し、製品化するかです.
爬虫類は合法ですか?
Webクローラーは法律で禁止されているわけではありませんが、法律に違反する危険性があります. 一般的に、クローラーは無害なクローラーと悪意のあるクローラーに分けられます. クローラーによってもたらされるリスクは、次の 2 つの側面に反映されます。
クローラーは、訪問した Web サイトの通常の動作を妨害します
クローラーは、法律で保護されている特定の種類のデータまたは情報を取得します
では、クローラーを使用したり作成したりする過程でビューローに入るという不運をどのように回避するのでしょうか?
訪問した Web サイトの通常の操作に干渉しないように、常にプログラムを最適化します。
クロールされたデータを使用および配布する場合は、クロールされたコンテンツを確認します.ユーザーのプライバシーや企業秘密などの機密コンテンツを見つけた場合は、時間内にクロールまたは配布を停止する必要があります.
使用シナリオにおける爬虫類の分類
ページ全体のデータをクロールする一般的なクローラー クロール システムの重要な部分
フォーカス クローラーは、一般的なクローラーに基づいており、ページ上の特定のローカル コンテンツをクロールします。
インクリメンタル クローラーは、Web サイトのデータの更新を検出し、Web サイトの最新の更新されたデータのみをクロールします。
爬虫類の槍と盾
クロール防止メカニズム: ポータル Web サイトは、対応する戦略または技術的手段を策定することにより、クローラーが Web サイト データをクロールするのを防ぐことができます。クロール防止戦略: クローラー プログラムは、関連する戦略または技術的手段を策定することにより、ポータル Web サイトのクロール防止メカニズムをクラックして、ポータル Web サイトで関連データを取得することができます。
次に、Web クローラーの重要なプロトコルである robots.txt プロトコルを見てみましょう。robots.txt 契約は紳士協定であり、Web サイト内のどのデータをクロールできるか、どのデータをクロールできないかを規定しています。
http プロトコルと https プロトコル
http プロトコル: サーバーとクライアント間のデータ相互作用の形式です。http プロトコルで一般的に使用される要求ヘッダー情報:
User-Agent: リクエスト キャリアの ID
接続: 要求が完了した後、接続を切断するか維持するか http プロトコルで一般的に使用される応答ヘッダー情報:
Content-Type: サーバーがクライアントに応答するデータ型. https プロトコルは実際には安全な http プロトコルです.