今天用爬虫框架爬取前程51python职位,一直爬取不出详情页,下一页url和详情页url都没问题,但就是没显示详情页内容,也没有报错,后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图:
后来发现是因为首页的域名和详情页的域名不一致导致的如下图:
首页域名:
详情页域名:
而我写的是首页域名,如图:
换成详情页域名后:
扫描二维码关注公众号,回复:
5550172 查看本文章
换了域名后就好了。。。。。。但是这样又不能翻页了,所以还要加上首页域名
这样就可以了,既能翻页又能爬取详情页