Pythonのウェブクローラとクローラ情報抽出mooc ------例

例1 - クロールページ

1つの インポート要求
 2 URL = " HTTPS // itemjd.com / 2646846.html " 
3  試み：
 4    、R =要求。取得（URL）
 5    r.raise_for_status（）
 6    = r.encodingをr.apparent_encoding
 7    ：プリント（[r.text 1000年]）
 8を 除い：
 9    プリント（" 爬取失败"）

通常のクロールページ

例二 - のページをクロール

1つの インポート要求
 2 URL = " https://www.amazon.cn/gp/product/B01M8L5Z3Y " 
3  試み：
 4     KV = { ' ユーザーエージェント'：' のMozilla / 5.0 ' }
 5     R = requests.get（URL 、ヘッダー= KV）
 6     r.raise_for_status（）
 7     r.encoding = r.apparent_encoding
 8     プリント（r.text [1000：2000 ]）
 9を 除い：
 10     プリント（" 爬取失败"）

サイトへのユーザー名へのアクセス、シミュレートブラウザ要求には制限があります

三つの例 - 検索エンジンのクロール

1  ＃百度のインターフェイスキーワード：HTTP：WD = //www.baidu.com/sキーワード？
2  ＃画像インタフェース360：HTTP：？Q = //www.so.com/sキーワード
。3つの インポート要求
 4。 =キーワード" パイソン" 
5。 試し：
 6      キロボルト= { ' WD ' ：}キーワード
 7      R＆LT requests.get =（" http://www.baidu.com/s "、paramsは= キロボルト）
 8。     印刷（r.request。 URL）
 9。     r.raise_for_status（）
 10      印刷（LEN（r.text））
 11。 を除い：
 12です     印刷（「クロール失敗」）
------------------------------------------ --------

インポート要求
キーワード= "パイソン" 
試み：
    KV = { 'Q'：キーワード} 
    R = requests.get（ "http://www.so.com/s"、paramsは= KV）
    プリント（r.request.url）
    r.raise_for_status（）
    プリント（LEN（r.text））
を除い：
    プリント（ "爬取失败"）

4つの例： - クロール絵

1つの インポート要求
 2  輸入OS
 3のurl = " http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg " 
4ルート= " F：//写真// " 
5パス=ルート+ url.split （' / '） - 1 ]
 6  試み：
 7      なら ないos.path.exists（ルート）：
 8          os.mkdir（ルート）
 9      なら ないos.path.exists（パス）：
 10          R = requests.get（ URL）
 11          オープン（パスを持ちます、"WB 「F AS）：
 12は             f.write（r.content）
 13がある             f.close（）
 14              印刷（" ファイルが正常である保存" ）
 15      、他：
 16          印刷は、（" ファイルが既に存在する" ）
 17。 以外：
 18で     印刷するには（「クロール失敗を取ります」）

クロールや画像を保存します

クエリに属する5つの--ipアドレスの例：

http://m.ip138.com/ip.asp?ip=ipaddress

URL = " http://www.ip138.com/iplookup.asp?ip= " 
挑戦：
    R = requests.get（URL + ' 202.204.80.112 ' + ' ＆アクション= 2 ' ）
    r.raise_for_status（）
    r.encoding = r.apparent_encoding
     印刷（r.text [-500 ：]）
 を除く：
     プリント（" 爬取失败"）

抗登るがあります。

Pythonのウェブクローラとクローラ情報抽出mooc ------例

おすすめ