6-Python爬虫-分布式爬虫/Redis

分布式爬虫

  • 单机爬虫的问题:
    • 单机效率
    • IO吞吐量
  • 多爬虫问题
    • 数据共享
    • 在空间上不同的多台机器,可以成为分布式
  • 需要做:
    • 共享队列
    • 去重
  • Redis
    • 内存数据库
    • 同时可以落地保存到硬盘
    • 可以去重
    • 可以把他理解成一共dict,set,list的集合体
    • 可以对保存的内容进行生命周期控制
  • 内容保存数据库
    • MongoDB
    • Mysql等传统关系数据库
  • 安装scrapy_redis
    • pip install scrapy_reids
    • github.com/rolando/scrapy-redis
    • scrapy-redis.readthedocs.org

推荐书籍

  • Python爬虫开发与项目实战, 范传辉, 机械工业出版社
  • 精通 python爬虫框架scrapy, 李斌 翻译, 人民邮电出版社
  • 崔庆才,

猜你喜欢

转载自www.cnblogs.com/xuxaut-558/p/10031409.html
今日推荐