WebクローラーのHTTP原理、ページリクエスト、ページ単位

クリエイティブコモンズライセンス 著作権:帰属、紙ベースを作成するために他人を許可し、(同じライセンスで元のライセンス契約に基づいて用紙配布する必要がありますクリエイティブコモンズ

ディレクトリ

1、URIとURL 2、ハイパーハイパー

3、HTTP及びHTTPS 4、HTTP要求手順

5、6リクエストメソッド、リクエストヘッダ

7、8要求、応答

9、ページ単位


 

1、URI与URL

URIは、統一資源識別子です(URLはURIのサブセットである、URIはまた、サブクラスがユニフォームリソース名、リソースを検索する方法を指定せずにのみという名前のリソースをURN含まれます)

URLユニフォームリソースロケータ(例えば:HTTPS:URLを//baidu.com/wd=leebelovedように解体した後、またURIである:アクセスプロトコルHTTPS、アクセス経路baidu.com、リソース名WD = leebeloved)

2、ハイパーテキストハイパーテキストは、Webブラウザは、ハイパーテキスト、WebページのHTMLコードのソースコードを来て決意を示しました。

3、HTTP和HTTPS

ハイパーテキスト転送プロトコルと呼ばれるHTTPは、ハイパーテキストの送信にネットワークからローカルブラウザ・プロトコル・データです。HTTPSは、HTTP、HTTPSコンテンツは暗号化されたSSLを介して送信された下SSL層を追加して、HTTPの安全なバージョンです。

サイトの信頼性を確保するために、2;、1セキュアな情報チャネルを確立:HTTPS役割が分かれています

図4に示すように、HTTP要求手順

HTTPリクエストのプロセス:Webページに入力されたURLから提示プロセスは次のとおりです。ブラウザ→サーバ→サイト処理サイト→要求を送信し、解決要求は→バック開発者ツールでブラウザ(リクエストウェブサイトへ→適切な応答を返しますパラメータ:URLの通常最後の部分名称要求名;ステータス応答ステータスコード、イニシエータの要求元、オブジェクトまたはプロセスが開始されたことにより、嘆願をマークするために使用;要求された文書型の種類、要求のサイズやサーバリソースのサイズからダウンロードしました。使用取得応答時間を開始する時刻要求、カスケードネットワークの可視化要求を滝)

Web開発者のツールバー:Generalセクション、リクエストURLリクエストURL、リクエストメソッド、状況ソース応答ステータスコード、リモートサーバーのアドレスとポートへの参照元のリモートアドレスの差別政策、リファラポリシー、レスポンスヘッダーのレスポンスヘッダの要求方法、要求ヘッダーのリクエストヘッダは、(要求ヘッダーは、識別ブラウザ、クッキー、ホストなどを含む)の

図5に示すように、リクエストメソッド

リクエストメソッド、URL、ヘッド本体:クライアントが4つのに分割されているサービスを終了する要求を送信します。一般的に使用される方法は、GETリクエストとポストです。
内部URLに含ま1、取得要求パラメータは、URLがPOSTリクエストURLにデータが含まれていないが、データがフォームのフォームを介して送信され、データで見ることができ、URLを見た(リクエストボディに含まれています以下)。
2、GET要求は1024バイトまでのデータを提出し、POSTメソッドは、限定されるものではありません。

図6に示すように、リクエストヘッダ

追加情報サーバは、説明のために使用されるように、より重要な情報には、クッキー、リファラー、ユーザーエージェントとを持っています。
1、受け入れ:リクエストヘッダフィールドは、許容されるクライアント情報の種類を指定する;
、受け入れ言語2:クライアント上許容される単語の種類を指定します
。3、受け入れをコードする:上許容されるクライアント・コンテンツのエンコーディングを指定します。
図4は、ホスト:ホストは、要求されたリソースのIPとポート番号、ゲートウェイまたはサービス要求URLの元の内容の位置を特定する;
5、クッキー:。また、複数のクッキーに使用されるが、セッショントラッキングユーザ・プレーン・メモリのための部位を同定するためにローカルユーザデータ。その主な機能は、セッションごとに現在のアクセスを維持することです。私たちの情報サーバでクッキーが対応する識別
リクエストヘッダにクッキーを追加するセッション、ブラウザはサイトのページを要求するたびに、サーバに送信し、サーバーは、私たち自身のクッキーで識別されますそして現在の状態がログオンしている見つけます。だから、結果は、参照するには、ログインした後、同じ純収益項目です。
6、リファラー:これは、サーバーがこの情報を入手し、適切な治療を行うことができ、そこからページを介して送信される要求の内容を識別するために使用される統計的情報源、抗ホットリンクの処理を行うよう。
7、USER-エージェント:UAと呼ばれる、それは最初の特殊文字のことですが、あなたは、オペレーティングシステムとバージョン、ブラウザとバージョンとクライアントを識別するために、サーバによって使用される他の情報を作ることができます。この情報に加えて、クローラを行う際に、ブラウザになりすますことができ、そうでない場合は、簡単に爬虫類を識別することができます。

7、リクエストボディ:一般的な形式のデータの内容はPOSTリクエストで運ばれるが、ボディGETリクエストが空のリクエスト

8、に応答した:応答のステータスコードにクライアントにサーバに戻り、ヘッダ、ボディ

応答ステータスコード:ノーマル応答サーバ200、404は内部エラーの代わりに、サーバ500、ページが見つからないことを示していることを示し、サーバ403は、アクセスが禁止されたアクセス要求を、拒否します。

レスポンスボディ:、メインWebページのソースコードを介して取得するJSONデータを爬虫類タイムレスポンスボディを行います。

9、ページ単位

htmlページ記述言語なので、上のテキスト、画像、動画、ボタンなどを含むウェブ:ウェブページの9.1。(異なるタグの異なる種類の文字の種類、IMGの写真、ビデオ動画、P段落、DIV「ラベルレイアウトで表される、ページ全体のフレームは、異なるタグと配置をネストされた様々な組み合わせです)。

JavaScriptを:スクリプト言語、単に静的な情報の使用をユーザーに提供するために、HTMLとCSS、相互作用の欠如。

CSS:カスケーディング・スタイル・シート、ラミネートいくつかの手段のスタイルファイルは、HTML、スタイルで参照し、競合がブラウザが積層順に従って処理することができる、発生し、テキストスタイルは、ページサイズ、色、素子間隔、配置および他のフォーマットを指します。

9.2の間およびノー​​ドツリーノードの関係

HTMLやXMLにアクセスするための標準を定義するDOMドキュメントオブジェクトモデル、。

ツリー構造としてHTML DOMザ・HTMLドキュメント:

ノードは、階層、親、子ノード、兄弟を持って、ツリー内の最上位ノードはルートノードと呼ばれ、各ノードは親ノードを持ち、子ノードまたは兄弟の数に制限はありません。

測位ノード9.3 CSSセレクタは、選択は、ネストすることができます。

おすすめ

転載: blog.csdn.net/LEEBELOVED/article/details/96423645