Webクローラーの概要
の定義
ウェブスパイダー、プロセスネットワークデータをクロールするウェブロボット。
実際には、Pythonプログラムは、人々があなたのブラウザをクリックしてサイトを訪問するだけでなく、より良い、より現実的な真似を模倣します。
二つのクロールデータオブジェクト
データ分析のために使用され、大量のデータを、取得するために1、
2、プロジェクト会社は、同社の業務に必要なデータのテストデータ
3社はデータモードを取得しました
1、自社データ
2、サードパーティのデータプラットフォームの購入(データホール、貴陽ビッグデータ交換)
爬虫類をクロール3、データ
四つの利点は、Pythonの爬虫類を行います
1、Pythonの:要求モジュール、分析モジュールリッチ、熟した、強力なWebクローラーフレームワークScrapy
2、PHP:マルチスレッドでは、非同期のサポートは非常に良いではありません
3、JAVA:重いコード、符号量
4、C / C ++:高い効率が、しかし、コードを形成遅いです
ファイブ爬虫類の分類
1、一般的なウェブクローラ(検索エンジン、ロボットが合意を遵守します)
ロボットプロトコル:Webサイトは、ページをクロールすることはできませんページをクロールすることが可能な検索エンジンのロボットプロトコルを、教えて
一般的なウェブクローラロボットは、契約(紳士協定)に準拠する必要があります
https://www.taobao.com/robots.txt
2.フォーカスWebクローラー:クローラーは、自分を書きます
爬虫類をクロール6つのデータをステップ
クロールURLアドレスのニーズを決定する1、
2、要求モジュールからのURLアドレスへのリクエスト、およびレスポンスのサイトを取得します
図3に示すように、抽出物からの応答の内容必要なデータ
1、必要なデータ、セーブ
2は、ページのURLアドレスを他のニーズをフォローアップしてリクエストを送信するステップ2に継続していき、そのサイクルは、