golang爬虫類

Webクローラー(また、Webスパイダー、ウェブロボットとして知られ、FOAFコミュニティの途中で、より頻繁にウェブチェイサーと呼ばれる)、ワールド・ワイド・ウェブのプログラムやスクリプトで自動的にグラブ情報、フォロー一定のルールのようなものです。

実際には、人気の話は、プログラムによってしたいウェブページのデータを得ることである自動的にグラブデータであります

爬虫類の基本的な流れ

要求を開始
HTTPライブラリを経由して標的部位への要求を開始するために、あること、リクエストを送信すると、要求は、サーバーの応答を待って、追加のヘッダー情報が含まれていてもよいです

応答内容を取得することは
、サーバーが正常な応答することができた場合、レスポンスを取得します、返信内容ページのコンテンツは、HTMLの種類、JSON文字列、バイナリデータ(画像や動画)および他のタイプであってもよいし、取得します

分析コンテンツ
取得されたコンテンツは、HTMLであってもよいし、あなたはJSONであってもよいし、ページの解析ライブラリ、パースに正規表現を使用することができ、それが直接JSONオブジェクトの解析に変換することができ、バイナリデータであってもよいし、さらに処理するために保存することができます

セーブデータを
様々な形で保存されたが、テキストとして保存することができ、それがデータベースに保存することができ、またはファイルには、特定の形式で保存します

 

参考:

1.  Golangと書き込み爬虫類()

2. Pythonの爬虫類

3.  素人爬虫類方法:GraphQueryと比較パイソン、Golang

おすすめ

転載: www.cnblogs.com/embedded-linux/p/12549053.html