关于scrapy只是输出了第一层的Web的爬取结果，但是第二层没有执行爬取问题分析 - 代码天地

关于scrapy只是输出了第一层的Web的爬取结果，但是第二层没有执行爬取问题分析

其他 2020-03-11 14:36:18 阅读次数: 0

从日志来进行分析,没有发现错误信息;第一层代码爬取正确,但是第二层web爬取,没有被执行,代码的编写应该没有问题的。
那问题是什么呢?会不会代码没有被执行呢?通过添加日志,但是对应的代码并没有执行,日志也被正常输出。是不是被过滤或者拦截了,从而代码没有被执行?
经过代码审查之后,发现allowed_domains设置的问题,由于起设置不正确,导致其余的链接被直接过滤了。
在这里插入图片描述
设置allowed_domains的含义是过滤爬取的域名，在插件OffsiteMiddleware启用的情况下（默认是启用的），不在此允许范围内的域名就会被过滤，而不会进行爬取

解决方法

方法一

allowed_domains需要是一组域名,而非一组urls。
在这里插入图片描述

方法二

添加参数dont_filter=True
scrapy会对request的URL去重，加上dont_filter则告诉它这个URL不参与去重。
在这里插入图片描述

发布了161 篇原创文章 · 获赞 37 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/ybw_2569/article/details/103452960

关于scrapy只是输出了第一层的Web的爬取结果，但是第二层没有执行爬取问题分析

wifi 是osi网络模型的第一层和第二层的无线形式

python 双层for循环，在第二层的for循环中的else中的continue，会退出到第一层for循环继续执行

小程序中两层wx:for 第二层如何获得第一层的for循环的index值

每日一题，每日一练，17有效括号的嵌套深度（你以为右括号是第一层，实际上是第二层，而栈在第五层）

el-cascader级联选择器递归遍历获取最后一层以及倒数第二层，以及解决最后一层展开没有数据的问题

Ajax -异步请求 -jquery中ajax分类 -第一层 $.ajax -第二层($.get /$.post) -第三层($.getJson/$.getScript) -相应演示

Linux下的tar命令打包与解压：将文件或文件+目录打包到第一层（根目录）（×）、将文件或文件+目录打包到第二层，在第一层包裹一层目录（子目录）（√）（打包规范、压缩包规范、压缩规范）

煤球数目有一堆煤球，堆成三角棱锥形。具体：第一层放1个，第二层3个（排列成三角形），第三层6个（排列成三角形），第四层10个（排列成三角形）， .... 如果一共有100层，共有多少个煤球？

自学网络协议（二）：OSI第一层——物理层Physical layer

logistic回归之第二层境界

TCP/IP第二层--数据链路层

[剑指offer] 第二层

网络保护第二层: IDS

layer弹出层第二层弹出第三层无法关闭第三层问题或者第三层无法覆盖第二层

复杂json后端解析出现第二层无数据的问题

getElementsByTagName()获取第一层子标签的集合

理解boost in C++ : 第一层

打开sCrypt的盒子（5）第一层Token

keras对第一层输入尺寸的规定

求二叉树第K层的叶子节点的个数(假设根节点是第一层)

OSI七层-----第一层物理层

OSI七层------第二层物理链路层

爬取有问题

iview框架两侧弹框出现第二层弹框一闪而过的问题

QMUI双层ViewPage嵌套,切换之后第二层viewPage页面不显示数据问题

scrapy爬取小说(一）

OSI第一层：物理层功能及作用（详解与解释）

纯C++超分辨率重建SRCNN --改编--（二）第一层卷积

一层、二层、三层、四层交换机的区别

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)