前言
本文是该专栏的第44篇,后面会持续分享python爬虫干货知识,记得关注。
分布式爬虫是指多台服务器或者多个工作节点对爬虫任务的同时处理,它可以极大程度提升采集效率,并具有良好的稳定性和可扩展性。而爬虫中的分布式通常需要配合消息队列使用,目前使用比较多的是结合Redis数据库共享队列,亦或者结合Celery分布式任务队列,还有rabbitMQ消息队列等。
在爬虫项目中,面对海量数据的需求,使用分布式架构策略去采集,能极大提升我们的工作效率。面对当前各行各业的大数据井喷式的增长,这也是分布式爬虫系统被广泛应用于大型爬虫项目的原因之一。所以说,掌握好分布式爬虫架构的思路,是非常有必要的。
对于分布式爬虫架构,笔者将主要来介绍两种常用的分布式爬虫架构,而本文详细来介绍第一种——主从分布式,结合架构设计思路来具体说明。第二种分布式爬虫架构,将在下篇详细来介绍,感兴趣的同学,记得关注。
废话不多说,下面跟着笔者直接往下看正文。
正文
可以说,主从分布式是目前使用最多的