3-04。シンプルな爬虫類

簡単爬虫類

  • アクション:バックエンドのデータ言語ウェブサイトをクロールして、特定のデータブロックで洗浄し、最後にフロントエンドにデータを出力します。

  • アンチ爬虫類

  • 解像度:タグの内容が絵を置きます

  • ステップ

    1. HTTPモジュールの導入

    const http = require( 'http' )    

2.コピーしNode.jsの公式サイト、http.get()

3.公式サイトのNode.jsコピー、constのオプション()上記http.get上の()

4.パスhttp.get()が、これは文字列なので、単一引用符ではないオプションに変更されます。

クロールのサイトを見つけるために5.コンソールのネットワークで見つかったドク、その後、リフレッシュフォルダがあるだろう、フォルダがにあることがデータであり、一番左クリックヘッダを、見つけるために、ドロップダウン一般要求UR Lを、コピーURLの一つ。

変更オプション6.ホスト名のドメインが(スラッシュ無しHTTP純粋ドメインおよび終了)であり、オブジェクト情報を、パスは、パスCOM /後者は、ブランクでない場合、GET要求の方法、それがあるためhttp.get(あります)、一貫コンテキストであること、のACCコピー要求ヘッダはコード全体をコンソール開始ヘッダが0に内部に、最終的なコンテンツの長さの値に加算されます。

そして:コンマが続くアポストロフィ後者の値。:フロントで - アポストロフィでもバー。

7.チェックコンソールデータ型テキストは、プログラムの種類である場合は、エラーを削除します。(reeorは一部を返すようにしましょう)

8. consolelogに、(生データ)をトライjosnハンドラを削除します

*リクエストが9ウェブサイトhttpsプロトコルの場合、すべてのコードを交換する必要があり、HTTP、HTTPS、ポート番号443、ヘッダを変更するヘッダのオプションを変更します。

10.コマンドを入力し、ファイルのディレクトリを表示するlsと入力します。ノード+スペース+ファイル名を実行するには、データの一部を取得します。

11.次に、サードパーティ製プラグインによって得られたデータクレンジングデータを使用して、[モジュール]をしたいチェリオ

まずNPMのinit -yは、プロジェクトの依存関係を記録するためのpackage.jsファイルを表示されます

13.cnpm私チェリオ-S

14.注入モジュール

const cheerio = require( 'cheerio' )

15.試みのコードの導入とはconsole.log(生データ)を削除

const $ = cheerio.load( rawData )
$('标签.类名 a').each( function ( item ) {
       console.log( $( this ).text()  )
      })
  1. 定数を定義するCONST REQ = http.get()モジュール

  2. req.end()してから、最後に追加

  3. サーバーを作成するには、サーバーを作成する04.ネイティブコードを参照するために、ネイティブコードを使用します。
  4. 以前は、ネイティブ・サーバー・レベルの機能にコードを貼り付ける前に、コピーhttp.getにゼロからスタートし、重複した変数を削除します。
  5. コピーペーストhttp.getの残りの部分は、Response.Writeをネイティブ・サーバー()、Response.Endの()ステートメントを交換してください。
  6. console.log($(この)は.textは( )) のResponse.Write(置き換えられます<h3> ${ $( this ).text() } </h3>
  7. Response.Endのプラス機能で()
  8. データを登っページ出力にファイルを実行します

おすすめ

転載: www.cnblogs.com/douyacai7822/p/11353407.html
おすすめ