1.爬取原页面
引用的原页面如下图,是亚马逊的一个商品
2.易错点分析
由于亚马逊设置了来源审查,所以想要爬取上面的内容需要更改代码,即更改头部信息也就是headers,使用字典构造键值对即可。
kv = {
'user-agent':'Mozilla/5.0'}
具体详解可看我之前写过的这边文章(自己捞一下自己,嘿嘿)
链接: https://blog.csdn.net/weixin_44578172/article/details/109302571
3.完整代码
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
kv = {
'user-agent':'Mozilla/5.0'}
#使用字典构造键值对,用Mozilla/5.0代替之前发送请求的header中的user-agent
r = requests.get(url,headers=kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")
爬取结果如下图:
本篇完,如有错误欢迎指出~
引用源自
中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001