Baiduのクラウドディスク
爬虫類は何ですか?
クローラは何ができますか?
爬虫類の性質上
、基本的なプロセスは、クローラ
のリクエスト&レスポンスが何であるかを
行うにはどのようにデータをクロール
爬虫類は何か?
Webクローラー(また、Webスパイダー、ウェブロボットとして知られ、FOAFコミュニティの途中で、より頻繁にウェブチェイサーと呼ばれる)、ワールド・ワイド・ウェブのプログラムやスクリプトで自動的にグラブ情報、フォロー一定のルールのようなものです。他のあまり頻繁に使用される名前はアリ、自動インデックス作成、シミュレーションプログラムやワームが含まれます。
実際には、人気のある話は自動的にグラブデータであるプログラムによってしたいウェブページのデータを取得することです
行うことができますどのような爬虫類?
あなたは、前提はあなたがリソースがブラウザを介してアクセスできるようにするということである妹の写真を、自分の興味をクロール動画島、またはあなたが望む何かを、クロールすることができます。
自然の爬虫類は何ですか?
爬虫類について何ができるか上記、前提の定義、ブラウザは爬虫類の性質がさらに簡単に、特に学者のそのWebリクエストのライフサイクルのために、任意のリソースにアクセスすることができます。爬虫類の性質は、私たちが望むデータページの一部を取得するためのページを開き、シミュレートブラウザにあります。
:ブラウザでWebページを開き
、ブラウザのアドレスバーに、1、あなたが訪問したいURLを入力してください。
図2に示すように、サーバのホストを見つけるためにDNSサーバーの後に、サーバに要求を送信
3、結果を処理し解析した後、サーバは、(等HTML、JS、CSSファイル、など)ユーザに返さ
4、ブラウザは、ブラウザによって解釈結果を受信しますユーザ画面に提示された結果
、我々はプログラムの自動化された自然の上に述べたが爬虫類のブラウザが自動的にサーバー、収集、処理、分析結果に要求を送信シミュレートすることです。
爬虫類のキーポイント:アナログ要求分析プロセスの自動化。
爬虫類の基本的な流れ
リクエスト開始
HTTPライブラリを経由して標的部位への要求(リクエスト)を開始することを、要求があり
、サーバーが待っている、追加のヘッダー情報が含まれている
応答の内容を取得するために
、サーバーが正常な応答することができた場合、レスポンスを取得します、応答内容は、キャプチャにしたいページの内容です、タイプはHTML、JSON文字列、バイナリデータ(画像や動画)ことや、他の種類も
の分析内容
のJSON解析ページ解析するライブラリは、JSONオブジェクトに直接変換することができますすることができる、コンテンツはHTMLであってもよいし、正規表現を使用することができます取得するには解像度、バイナリデータであってもよいし、さらなる処理のために保存することができる
データを保存するために
、様々な形で格納されたテキストとして保存することができ、また、データベースに保存することができ、または特定のファイル形式に保存