Python Scrapy

版权声明:转载请声明原文链接地址,谢谢! https://blog.csdn.net/weixin_42859280/article/details/84451282

安装:

pip install scrapy

安装后:用scrapy -h来检测安装效果。
爬虫框架结构!
在这里插入图片描述

5+2结构:5个主要模块,两个中间键。
在这里插入图片描述
在这里插入图片描述
SPI到ENG,获取下一个要爬取的网络请求。
就是一个URL。真实的。
然后,ENG将此请求转发给SCHED模块。负责对爬取请求调度。
ENG到DOWN,真实连接到互联网,进行爬。
再反过来走一次!再发送给ENG。
最后,ENG又会转发给SPI模块!
在这里插入图片描述在这里插入图片描述

  • 入口:SPID
  • 出口:ITEM

3个已经有的实现。2个需要编写的!
在这里插入图片描述

爬虫框架解析:
5+2:5个主要模块,两个中间键。
整个框架的核心:Engine 数据流都会通过它。
在这里插入图片描述

其他的:
在这里插入图片描述在这里插入图片描述

downloader middleware用户可以编写代码。
在这里插入图片描述
提供最初的请求,也会对返回的东西进行分析。
在这里插入图片描述

spider Middleware

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42859280/article/details/84451282