簡単爬虫類
アクション:バックエンドのデータ言語ウェブサイトをクロールして、特定のデータブロックで洗浄し、最後にフロントエンドにデータを出力します。
アンチ爬虫類
解像度:タグの内容が絵を置きます
ステップ
1. HTTPモジュールの導入
const http = require( 'http' )
2.コピーしNode.jsの公式サイト、http.get()
3.公式サイトのNode.jsコピー、constのオプション()上記http.get上の()
4.パスhttp.get()が、これは文字列なので、単一引用符ではないオプションに変更されます。
クロールのサイトを見つけるために5.コンソールのネットワークで見つかったドク、その後、リフレッシュフォルダがあるだろう、フォルダがにあることがデータであり、一番左クリックヘッダを、見つけるために、ドロップダウン一般の要求UR Lを、コピーURLの一つ。
変更オプション6.ホスト名のドメインが(スラッシュ無しHTTP純粋ドメインおよび終了)であり、オブジェクト情報を、パスは、パスCOM /後者は、ブランクでない場合、GET要求の方法、それがあるためhttp.get(あります)、一貫コンテキストであること、のACCコピー要求ヘッダはコード全体をコンソール開始ヘッダが0に内部に、最終的なコンテンツの長さの値に加算されます。
そして:コンマが続くアポストロフィ後者の値。:フロントで - アポストロフィでもバー。
7.チェックコンソールデータ型テキストは、プログラムの種類である場合は、エラーを削除します。(reeorは一部を返すようにしましょう)
8. consolelogに、(生データ)をトライjosnハンドラを削除します
*リクエストが9ウェブサイトhttpsプロトコルの場合、すべてのコードを交換する必要があり、HTTP、HTTPS、ポート番号443、ヘッダを変更するヘッダのオプションを変更します。
10.コマンドを入力し、ファイルのディレクトリを表示するlsと入力します。ノード+スペース+ファイル名を実行するには、データの一部を取得します。
11.次に、サードパーティ製プラグインによって得られたデータクレンジングデータを使用して、[モジュール]をしたいチェリオ
まずNPMのinit -yは、プロジェクトの依存関係を記録するためのpackage.jsファイルを表示されます
13.cnpm私チェリオ-S
14.注入モジュール
const cheerio = require( 'cheerio' )
15.試みのコードの導入とはconsole.log(生データ)を削除
const $ = cheerio.load( rawData )
$('标签.类名 a').each( function ( item ) {
console.log( $( this ).text() )
})
定数を定義するCONST REQ = http.get()モジュール
req.end()してから、最後に追加
- サーバーを作成するには、サーバーを作成する04.ネイティブコードを参照するために、ネイティブコードを使用します。
- 以前は、ネイティブ・サーバー・レベルの機能にコードを貼り付ける前に、コピーhttp.getにゼロからスタートし、重複した変数を削除します。
- コピーペーストhttp.getの残りの部分は、Response.Writeをネイティブ・サーバー()、Response.Endの()ステートメントを交換してください。
- console.log($(この)は.textは( )) のResponse.Write(置き換えられます
<h3> ${ $( this ).text() } </h3>
) - Response.Endのプラス機能で()
データを登っページ出力にファイルを実行します