2 Scrapy

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活地完成各种需求。

1 twisted是python下的一个事件驱动的异步网络应用框架,其项目主页为http://twistedmatrix.com/trac/。
2事件驱动是指在持续事务管理过程中,进行决策的一种策略,即跟随当前时间点上出现的事件,调动可用资源,执行相关任务,使不断出现的问题得以解决,防止事务堆积。

Scrapy

Spider会确定处理哪个网站,然后传送URL给引擎;

引擎将request请求发送给调度器;

调度器处理好request请求后,然后发给引擎;

引擎再将这个request请求发给下载器;

spider下载后,再交给引擎,分别是要跟进的URL与获取到的Item数据;

最后交给管道:Item数据存储,URL帮忙处理一下

 

参考链接:
https://segmentfault.com/a/1190000013178839

 

猜你喜欢

转载自blog.csdn.net/qq_42198024/article/details/108059075