三つの小さな爬虫類の栗
最初の例 - Jingdongは商品ケースをクロール
インポート要求 デフgetHTMLtext(URL): 試してみる: R = requests.request(' 取得' 、URL) r.raise_for_status() r.encoding = r.apparent_encoding 戻りr.textを 除い: リターン " 出现异常" URL = " HTTPS: //item.jd.com/100005477055.html 「 プリント(getHTMLtext(URL))
結果は以下の通りであります:
第二の例 - アマゾン爬虫類ケース
インポート要求 URL = ' https://www.amazon.cn/dp/B00RY59GJ0?ref_=Oct_DLandingSV2_PC_e9324a46_0&smid=A2EDK7H33M5FFG ' R = requests.request(' 取得' 、URL) プリント(r.status_code) ヘッダ = { 「ユーザエージェント':' のMozilla / 5.0 ' } R = requests.request(' 取得」、URL、ヘッダー= ヘッダ) プリント(r.headers) プリント(r.status_code) プリント(r.text)
Amazonの公式ウェブサイトは、抗爬虫類であるので、我々はユーザーエージェントを置き換えたいです
第三の例 - ポストのBaiduの場合