前言
上一节爬取了IP地址,这一节爬取亚马逊的单个商品信息,对爬取代码进行一点点优化。
完整代码
import requests as req
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
kv = {'user-agent': 'Mozilla/5.0'}
r = req.get(url,headers = kv)
r.raise_for_status()
print(r.text[1000:2000])
except:
print("爬取失败")
- 首先导入requests库
- 复制网页商品的url过来
- 用try except捕获爬取失败的异常
- kv模拟浏览器访问
- 获取浏览器的响应
- r.raise_for_status()触发异常,如果返回的代码不是200就会触发异常
- 没有异常则打印文本内容
- 异常了则提示爬取失败