python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)

今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:

后来发现是因为首页的域名和详情页的域名不一致导致的如下图:

首页域名:

详情页域名: 

而我写的是首页域名,如图:

换成详情页域名后:

扫描二维码关注公众号,回复: 5550172 查看本文章

换了域名后就好了。。。。。。但是这样又不能翻页了,所以还要加上首页域名

这样就可以了,既能翻页又能爬取详情页

猜你喜欢

转载自blog.csdn.net/weixin_43788061/article/details/88364088