Pythonの爬虫類のコレクション

Pythonの爬虫類のコレクション

最近、このプロジェクトは、サイトのページの一部を収集する必要があり、以前にいくつかの記録を行うには、取得のpythonで多くの研究を行うために今非常に人気行うためにPHPを使用しますが、されていました。

データ収集は、Webページの内容を取得することが基本であり、その後、内容に基づいて、必要なデータをフィルタリング、

Pythonの利点はスピード、マルチスレッド、同時実行性の高い、多くのデータを収集するために使用することができている、とPHPの欠点が比較され、Pythonのホイールとフル一見無PHPのコードライブラリ、およびPythonは少しトラブルスポットを設置し、トス長い時間のために。

python3のインストールは、接続を参照してください。

https://www.cnblogs.com/mengzhilva/p/11059329.html

ツールエディタ:

PyCharm:pythonの専用エディタの良い使用、あなたはコンパイルして実行することができ、サポート窓

Pythonライブラリのコレクションを使用します:

リクエスト:、ページの内容を取得するために使用されるHTTPSをサポートし、ユーザーのログイン情報、非常に強力な

lxmlの:HTMLコンテンツの取得を解析するために使用される、非常に使いやすい、柔軟、見つけるのは簡単ですが、使用方法の多くは、見つけるのは簡単APIドキュメント。

pymysql:操作のmysqlに参加し、これは収集された情報はデータベースに保存されている、言ったことはなかっただろう。

基本的に、これらの3つのコレクション・ページをサポートすることができます

インストールコード:

ピップと呼び出すコードをインストールします。

pymysqlインストールピップ
要求はピップをインストール
lxmlのインストールピップ

 データ収集:

コードと印刷結果のコレクション:

中国の歪み解決コーディング#コーディング= UTF-8#セットページ
インポート再
インポートpymysql
インポート要求
MYDBインポート*から
lxmlのインポートetreeから
アクセスするには、#のアナログブラウザ
ヘッダ= {
; U-「はMozilla / 5.0(Windowsの場合:「User--エージェント」を;のWindows NT 6.1; EN-US; RV:1.9.1.6)のGecko / 20091201 Firefoxの/ 3.5.6 '
}
#requestsは、ページが取得
https://www.cnblogs.com/mengzhilva/」= requests.get(respose'、 =ヘッダヘッダ)
含有量= respose.text#取得したコンテンツ
によりHTML形式= etree.HTML(コンテンツ)#のlxmlの
結果= etree.tostring(HTML、エンコーディング= 'UTF-8')#の出力コード解析対象
タイトル= HTML。 XPathの( '// divの[クラス@ = "日"] // divの[クラス= "postTitle" @] // A /テキスト()')#は、対応するデータを見つける
URL = html.xpath(「//のdiv [を @ クラス= "日"] // divのクラス@ [= "postTitleは「] / HREF @「)#は、対応するデータを見つける//します
印刷(タイトル)
を印刷(URL)
I = 1。
タイトルにヴァルのために:
URL = html.xpath( '// divの[クラス@ = "日"] [' +フォーマット(I)+「]は// divの[@class =「postTitle」] /を// 「のhref @)# 巡回チェックリストのアドレス
を印刷(ヴァル)
印刷(URL)
別々の機能は、前のページのコンテンツを取得するために呼び出すことができます。#
I + = 1を

おすすめ

転載: www.cnblogs.com/mengzhilva/p/11059768.html