python爬虫scrapy框架今天踩得坑([scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'jobs.5)

其他 2019-03-16 11:10:54 阅读次数: 0

今天用爬虫框架爬取前程51python职位，一直爬取不出详情页，下一页url和详情页url都没问题，但就是没显示详情页内容，也没有报错，后来发现中间出现一个信息DEBUG: Filtered offsite request to 'jobs.51job.com'如下图：

后来发现是因为首页的域名和详情页的域名不一致导致的如下图：

首页域名：

详情页域名：

而我写的是首页域名，如图：

换成详情页域名后:

扫描二维码关注公众号，回复： 5550172 查看本文章

换了域名后就好了。。。。。。但是这样又不能翻页了，所以还要加上首页域名

这样就可以了，既能翻页又能爬取详情页

转载自blog.csdn.net/weixin_43788061/article/details/88364088

今日推荐

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)