scrapy高级操作

编辑本随笔

一、Scapy核心组件

  • 引擎:用来处理整个系统的数据流处理,出发事物
  • 管道:负责处理爬虫从网页上提取的实体信息,主要是持久化和验证实体的有效性,清楚不需要的信息。
  • 调度器:接受引擎发过来的请求,由它决定下一个要爬取的网址,去处重复网址
  • 下载器:下载网页内容,将网页发回给蜘蛛,scrapy
  • 爬虫文件:即蜘蛛,从特定的网页中提取自己需要的信息,即所谓的实体。用户也可以从中取出连接,让scrapy继续抓取下一个页面

猜你喜欢

转载自www.cnblogs.com/yaya625202/p/10417139.html