図書館Webクローラーの戦闘を要求

例1:Jingdongは商品ページのクロール

インポート要求
のurl = "https://item.jd.com/100004770237.html" 
挑戦:
   R = requests.get(URL)
   r.raise_for_status()
   r.encoding = r.apparent_encoding 
   プリント(r.text [1000] )
を除く:
    プリント( "爬取失败") 

例2:アマゾン商品ページのクロール

インポート要求
のurl = "https://www.amazon.cn/dp/B071HXVPXG/ref=lp_659039051_1_2?s=books&ie=UTF8&qid=1580353560&sr=1-2" 
試し:
   KV = { 'ユーザーエージェント': 'のMozilla / 5.0 「}     
   R = requests.get(URL、ヘッダー= KV)
   r.raise_for_status()
   r.encoding = r.apparent_encoding 
   プリント(r.text [1000:2000])
を除く:
    プリント( "爬取失败") 

三つの例:360のBaiduは提出されたキーワードを検索します

インポート要求
キーワード= "パイソン" 
試み:
    KV = { 'Q':キーワード} 
    R = requests.get( "http://www.so.com/s"、paramsは= KV)
    プリント(r.request.url)
    r.raise_for_status()
    プリント(LEN(r.text))    
を除い:
    プリント( "爬取失败")

注:インターフェイスを提出した検索エンジンのキーワード

Baiduのキーワードインタフェースます:http://www.baidu.com/s WD =キーワード?

360キーワードインタフェースます:http://www.so.com/s Q =キーワード?

4つの例:ネットワーク・クロールの画像とストレージ

リクエストのインポート
インポートOS 
のurl =「http://img1.3lian.com/2015/w7/97/d/25.jpg」
#設定クローリング画像の保存場所と名前、名前は元の名前の画像を使用することができるとすることもできますカスタマイズ
ルート= "E:// Pythonの" 
[ - 1]パス= + url.splitルートを( '/')
してみてください。
    そうでない場合のos.path.exists(ルート):
        os.mkdir(ルート)
    されていない場合:os.path.exists(パス)
        、R = requests.get(URL)
        を開きます(パス、 'WB')F ASと:
            f.write(r.content)
            f.close() "ドキュメントが正常に保存")を印刷
    他:
        印刷(「ファイルが既に存在する」)
を除い:
    印刷(「失敗クロール」)
        

自動クエリのIPアドレス帰属:5の例

インポート要求
のurl = "http://m.ip138.com/ip.asp?ip=" 
挑戦:
    R = requests.get(URL + '202.204.80.112')
    r.raise_for_status()
    r.encoding = r.apparent_encoding 
    印刷(r.text [-500:])
を除く:
    プリント( "爬取失败")

  

おすすめ

転載: www.cnblogs.com/py2019/p/12242318.html