爬虫類:
簡単に言えば:Webページを取得し、情報を保存するための自動化されたプログラムを抽出
四つの基本的な情報要求
1.リクエスト方法:
、GET、POSTありますが、二つの追加PUTがある[削除]オプションは、頭部
2の要求のURL:
などのウェブ文書、画像、ビデオなどのユニフォームリソースロケータ、用スタンドのURLをので、一意のURLで識別することができます
3.要求ヘッダー:
ヘッダー情報、例えばユーザーエージェントとして、ホストクッキーは他の情報が要求含む
前記リクエストボディを:
そのようなフォームの送信要求などの追加データを搬送するフォームデータを
応答四つの基本的な情報
2.応答ステータス:複数の応答ステータス、成功したジャンプ301を表すような200として、404ページ、サーバを見つけることができません502エラー
応答ヘッド3:そのようなコンテンツタイプ、コンテンツ長、サーバ情報、及び配置されたクッキーなど
4.応答ボディ:最も重要な部分は、WebページのHTML、画像、バイナリデータとして、要求されたリソースの内容が含まれています
クローラは、データをクロールすることができます
HTMLなどのページのテキスト文書、JSON形式のテキスト
画像、
動画
その他
分析方法:
1.直接処理
2.Json
3.正規表現
4.BeatutifulSoup
5.PyQuery
6.XPath
JavaScriptをレンダリングの問題を解決する方法
アヤックスの分析が要求
セレン/ webdriverを
スプラッシュ
PyV8 Ghost.pyを
データを保存する方法
テキスト:プレーンテキスト、JSON、XML
、リレーショナルデータベース:MySQLの、格納するための構造化テーブル構造などのSQLServer Oracleの
非リレーショナルデータベース:として保存するMongoDB、Redisの、などのキー値
などの画像、ビデオ、オーディオ、直接保存など:バイナリファイルをフォーマットの特性として
爬虫類エージェント:
爬虫類は速くクロールするので、あなたはサイトは私たちがそこそこ達成するために、本当のIPを隠すためにプロキシを使用し、ブロックされたIPに直接署名するために確認コードを入力できるようになる。その場合には、プロセスをクロール同じIPアクセスあまりにも日常的な問題が、発生する可能性があります良いクロール効果