この記事では、ペン興味深いネットワーク小説サイトプロセス図をクロールPythonの爬虫類を説明し、非常に詳細に記述されたテキストのサンプルコードは、習得したり、作業するために私たちのすべてのための学習の一定の基準値を持って、困っている友達には、以下を参照することができます
最初:記事で構文解析ライブラリの紹介
BeautifulSoup:
美しいスープは、いくつかの簡単なナビゲーション、検索を処理するためのPythonの型の機能を提供するパースツリーの機能を変更します。
単純なので、その完全なアプリケーションを作成するために多くのコードを必要としない、文書を解析するために、ユーザによって捕獲に必要なデータを提供するツールキットです。
美しいスープを自動的に入力された文書をコードUnicodeに変換され、文書が符号化された出力をUTF-8に変換されます。
文書は、コードを指定していない場合を除きあなたは、エンコーディングを考慮する必要はありません、そして、美しいスープは、自動的にエンコーディングを識別することはできません。その後、あなたはそれにコーディング元を説明する必要があります。
美しいスープは、Pythonインタプリタとして良いとして、異なる分析戦略や強いレートの柔軟性をユーザーに提供し、lxmlの、html6libとなっています。
小説の背景の理由をクロール:
多くのお金を持っていないオンラインの顔のための出発点小説を読むために愛のために使用されるが、多くは貧しい学生にお金を持って、彼は純利息ペンを見つけました。
ペンを参照するには楽しいが、小説サイトです、小説はダウンロードにパッケージをサポートしていない、そこに自由な小説の多くは、中国のネットワークからであり、このサイトでは、オンラインでのみ閲覧することができます。
それがサイトからクロールし、小説の名前は「1は、永遠の考え」保存されたクローリングこれはそう。
さらに、この例では、ただやるクロール実証し、本物のリソースをサポートしてください!!!!!!!!!!!
だから、簡単なクロールを開始します。
①オープンURLリンク、F12キーを押し、右-チェック開発者向けツールに
②開発者向けツールで、エントリ情報のキャプチャが見つけるために私たちを要求します
、記事の内容の主要部分を選択してコピーを選択し、その部分を貼り付け、
その後、開発者ツールバーを開きます。
「sreach-アイコン虫眼鏡を選択し、検索するためのGoogleの検索バーの内容を貼り付けるネットワーク- 」
、次に下のエントリ情報を取得し、クリックし、ページが要求エントリに応じて、本体をロードするためにジャンプします。
私たちは見ることができます:
ボディ部分はshowtxtへのdivのコンテンツのidとクラスです。
③構成要求URL
今のサイトには、抗クライミング能力を持っているので、私たちは、ブラウザのリクエストのリンクから放出される通常のURLをシミュレートする必要がある場合は、上記の情報は、十分ではありません。
ここでは、使用されます:のUser-Agent(ブラウザの識別)
またはDeveloper Toolsは、ヘッダをクリックすると、リクエスト-レスポンスエントリの詳細を見ることができます。
④要求:
詳細なフィールドで、我々は、コード・ページ要求を書き込むことができます
⑤対応するコンテンツを取得して、取得するために実行し、次のとおりです。
レスポンスデータを解析
ここで、我々はコードを解析BeautifulSoupを使用するが実行されて...結果に示すように:
ここでは、小説が完成クロールされます。
誰もが、資源の収集を学ぶ非常に広いのpythonをお勧めするために私は、あなたへの書き込み入力する]をクリックし、ここでの共有経験に学ぶ前に、上級プログラマで、研究ノート、ビジネス経験の可能性がある、と皆のために注意深くのpythonゼロを整理します細部のメッセージを残すことを学んで、実際のプロジェクトデータ、最新の技術上のあなたに、毎日のpython、見通しの根拠
それは、私が助け学習したい、この記事のためにすべてです