Webクローラー(また、Webスパイダー、ウェブロボットとして知られ、FOAFコミュニティの途中で、より頻繁にウェブチェイサーと呼ばれる)、ワールド・ワイド・ウェブのプログラムやスクリプトで自動的にグラブ情報、フォロー一定のルールのようなものです。
実際には、人気の話は、プログラムによってしたいウェブページのデータを得ることである自動的にグラブデータであります
爬虫類の基本的な流れ
要求を開始
HTTPライブラリを経由して標的部位への要求を開始するために、あること、リクエストを送信すると、要求は、サーバーの応答を待って、追加のヘッダー情報が含まれていてもよいです
応答内容を取得することは
、サーバーが正常な応答することができた場合、レスポンスを取得します、返信内容ページのコンテンツは、HTMLの種類、JSON文字列、バイナリデータ(画像や動画)および他のタイプであってもよいし、取得します
分析コンテンツ
取得されたコンテンツは、HTMLであってもよいし、あなたはJSONであってもよいし、ページの解析ライブラリ、パースに正規表現を使用することができ、それが直接JSONオブジェクトの解析に変換することができ、バイナリデータであってもよいし、さらに処理するために保存することができます
セーブデータを
様々な形で保存されたが、テキストとして保存することができ、それがデータベースに保存することができ、またはファイルには、特定の形式で保存します
参考:
2. Pythonの爬虫類