Pythonのウェブクローラとクローラ情報抽出mooc ------例

例1 - クロールページ

1つの インポート要求
 2 URL = " HTTPS // itemjd.com / 2646846.html " 
3  試み4    、R =要求。取得(URL)
 5    r.raise_for_status()
 6    = r.encodingをr.apparent_encoding
 7    :プリント([r.text 1000年])
 8を 除い:
 9    プリント(" 爬取失败"

通常のクロールページ

 

例二 - のページをクロール

1つの インポート要求
 2 URL = " https://www.amazon.cn/gp/product/B01M8L5Z3Y " 
3  試み4     KV = { ' ユーザーエージェント'' のMozilla / 5.0 ' }
 5     R = requests.get(URL 、ヘッダー= KV)
 6     r.raise_for_status()
 7     r.encoding = r.apparent_encoding
 8     プリント(r.text [1000:2000 ])
 9を 除い10     プリント" 爬取失败"

サイトへのユーザー名へのアクセス、シミュレートブラウザ要求には制限があります

 

三つの例 - 検索エンジンのクロール

1  百度のインターフェイスキーワード:HTTP:WD = //www.baidu.com/sキーワード?
2  画像インタフェース360:HTTP:?Q = //www.so.com/sキーワード
。3つの インポート要求
 4。 =キーワード" パイソン" 
5。 試し6      キロボルト= { ' WD ' :}キーワード
 7      R&LT requests.get =(" http://www.baidu.com/s "、paramsは= キロボルト)
 8。     印刷(r.request。 URL)
 9。     r.raise_for_status()
 10      印刷(LEN(r.text))
 11。 を除い12です     印刷クロール失敗
------------------------------------------ --------
インポート要求
キーワード= "パイソン"
試み:
KV = { 'Q':キーワード}
R = requests.get( "http://www.so.com/s"、paramsは= KV)
プリント(r.request.url)
r.raise_for_status()
プリント(LEN(r.text))
を除い:
プリント( "爬取失败")
 

 

4つの例: - クロール絵

1つの インポート要求
 2  輸入OS
 3のurl = " http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg " 
4ルート= " F://写真// " 
5パス=ルート+ url.split (' / ') - 1 ]
 6  試み7      なら ないos.path.exists(ルート):
 8          os.mkdir(ルート)
 9      なら ないos.path.exists(パス):
 10          R = requests.get( URL)
 11          オープン(パスを持ちます、"WB F AS):
 12は             f.write(r.content)
 13がある             f.close()
 14              印刷" ファイルが正常である保存" 15      、他16          印刷は、" ファイルが既に存在する" 17。 以外18で     印刷するにはクロール失敗を取ります

クロールや画像を保存します

クエリに属する​​5つの--ipアドレスの例:

http://m.ip138.com/ip.asp?ip=ipaddress

URL = " http://www.ip138.com/iplookup.asp?ip= " 
挑戦
    R = requests.get(URL + ' 202.204.80.112 ' + ' &アクション= 2 ' 
    r.raise_for_status()
    r.encoding = r.apparent_encoding
     印刷(r.text [-500 :])
 を除くプリント" 爬取失败"

抗登るがあります。

 

おすすめ

転載: www.cnblogs.com/cy2268540857/p/12424091.html