redis 分布式

主要内容:https://segmentfault.com/a/1190000014333162?utm_source=channel-hottest

1 分布式爬虫的概念:   day08   

  scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 
  虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改为从redis读取,多个客户端可以同时读取同一个redis,从而实现了分布式的爬虫。

  

2   增量式爬虫: 只爬取跟新的数据, 需要在setting配置文件中进行配置   day08 choutipro

猜你喜欢

转载自www.cnblogs.com/gyh412724/p/10279675.html