PY爬虫類 - 三つの小さな爬虫類の栗

三つの小さな爬虫類の栗

最初の例 - Jingdongは商品ケースをクロール

インポート要求


デフgetHTMLtext(URL):
     試してみる
        R = requests.request(' 取得' 、URL)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
         戻りr.textを
     除いリターン " 出现异常" 
URL = " HTTPS: //item.jd.com/100005477055.html 
プリント(getHTMLtext(URL))

結果は以下の通りであります:

 

 第二の例 - アマゾン爬虫類ケース

インポート要求

URL = ' https://www.amazon.cn/dp/B00RY59GJ0?ref_=Oct_DLandingSV2_PC_e9324a46_0&smid=A2EDK7H33M5FFG ' 

R = requests.request(' 取得' 、URL)

プリント(r.status_code)

ヘッダ = { ユーザエージェント'' のMozilla / 5.0 ' } 

R = requests.request(' 取得、URL、ヘッダー= ヘッダ)

プリント(r.headers)

プリント(r.status_code)

プリント(r.text)

Amazonの公式ウェブサイトは、抗爬虫類であるので、我々はユーザーエージェントを置き換えたいです

 

 

 第三の例 - ポストのBaiduの場合

 

おすすめ

転載: www.cnblogs.com/Nlifea/p/11875649.html