Python爬虫入门实例二之亚马逊商品页面的爬取

1.爬取原页面

  引用的原页面如下图,是亚马逊的一个商品

在这里插入图片描述

2.易错点分析

  由于亚马逊设置了来源审查,所以想要爬取上面的内容需要更改代码,即更改头部信息也就是headers,使用字典构造键值对即可。

kv = {
    
    'user-agent':'Mozilla/5.0'}

  具体详解可看我之前写过的这边文章(自己捞一下自己,嘿嘿)

链接: https://blog.csdn.net/weixin_44578172/article/details/109302571

3.完整代码

import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv = {
    
    'user-agent':'Mozilla/5.0'}
#使用字典构造键值对,用Mozilla/5.0代替之前发送请求的header中的user-agent
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

爬取结果如下图:

在这里插入图片描述
  本篇完,如有错误欢迎指出~

引用源自

中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001

猜你喜欢

转载自blog.csdn.net/weixin_44578172/article/details/109323613