Pythonの爬虫類(c)は、爬虫類のいくつかの基本的な知識を確認します

爬虫類:

簡単に言えば:Webページを取得し、情報を保存するための自動化されたプログラムを抽出

四つの基本的な情報要求

1.リクエスト方法:
、GET、POSTありますが、二つの追加PUTがある[削除]オプションは、頭部
2の要求のURL:
などのウェブ文書、画像、ビデオなどのユニフォームリソースロケータ、用スタンドのURLをので、一意のURLで識別することができます
3.要求ヘッダー:
ヘッダー情報、例えばユーザーエージェントとして、ホストクッキーは他の情報が要求含む
前記リクエストボディを:
そのようなフォームの送信要求などの追加データを搬送するフォームデータを

応答四つの基本的な情報

2.応答ステータス:複数の応答ステータス、成功したジャンプ301を表すような200として、404ページ、サーバを見つけることができません502エラー
応答ヘッド3:そのようなコンテンツタイプ、コンテンツ長、サーバ情報、及び配置されたクッキーなど
4.応答ボディ:最も重要な部分は、WebページのHTML、画像、バイナリデータとして、要求されたリソースの内容が含まれています

クローラは、データをクロールすることができます

HTMLなどのページのテキスト文書、JSON形式のテキスト
画像、
動画
その他

分析方法:

1.直接処理
2.Json
3.正規表現
4.BeatutifulSoup
5.PyQuery
6.XPath

JavaScriptをレンダリングの問題を解決する方法

アヤックスの分析が要求
セレン/ webdriverを
スプラッシュ
PyV8 Ghost.pyを

データを保存する方法

テキスト:プレーンテキスト、JSON、XML
、リレーショナルデータベース:MySQLの、格納するための構造化テーブル構造などのSQLServer Oracleの
非リレーショナルデータベース:として保存するMongoDB、Redisの、などのキー値
などの画像、ビデオ、オーディオ、直接保存など:バイナリファイルをフォーマットの特性として

爬虫類エージェント:

爬虫類は速くクロールするので、あなたはサイトは私たちがそこそこ達成するために、本当のIPを隠すためにプロキシを使用し、ブロックされたIPに直接署名するために確認コードを入力できるようになる。その場合には、プロセスをクロール同じIPアクセスあまりにも日常的な問題が、発生する可能性があります良いクロール効果

公開された63元の記事 ウォン称賛12 ビュー4055

おすすめ

転載: blog.csdn.net/qq_45353823/article/details/104161956