分布式爬虫、redis介绍及安装

目录

分布式爬虫

redis数据库的特点

redis及可视化工具安装 


分布式爬虫


1.什么是分布式爬虫?
  默认情况下 scrapy 爬虫是淡季爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的,其他电脑无法访问另一台电脑上的内存的内容
2.分布式爬虫用一个共同的爬虫程序 同时部署到多台电脑上运行, 这样可以提高爬虫速度,实现分布式爬虫

分布式爬虫的前提:


1.要保证每一台计算机都能够正常的执行scrapy命令,能够启动爬虫
2.要保证所有的爬虫程序可以访问桶一个队列的一个set集合
scrapy_redis
    想要保证多台机器公用一个queue队列和set集合,scrapy中是结合scrapy_redis完成的分布式爬虫可以让所有机器上的爬虫程序 从同一个queue队列中获取request请求,而且每个机器取出的request请求的对象是不一样的,直到所有的request请求被请求完毕

分布式爬虫的适用范围/条件/要求


1.分布式爬虫 对电脑的性能有一定的要求
2.分布式爬虫对网速也有一定的要求  电脑性能和网速如果不是很好的话,爬虫效率不如单机爬虫
注意:并不是任何时候都可以使用分布式爬虫 因为对硬件有要求,小公司 可能负担不起

分布式爬虫经和 redis数据库一起使用


redis数据库的特点


优点:
1.体积小,使用方便
如果存储数据量较大的话,启动速度快
默认使用持久化数据方式
数据库中的数据和内存中的数据可以相互访问
缺点:
从安全性的角度来讲,持久化数据可能会崩溃,造成数据丢失

要实现分布式爬虫 首先要配置服务器主从

配置主从的目的


1.达到备份的功能。一旦master出现崩溃,而数据库中还有数据的话可以将其中的一个slave重新设置为主服务器,从而恢复redis的正常运行
2.一个redis服务器负责读写,性能较低,通过主从来减轻redis的压力

redis主从的配置


    redis作为缓存服务器,主要试讲数据在内存中进行缓存 但是一台机器的内存和性能是有限的但是对于redis数据库的数据进行的读写量较大的时候,那么一台redis就不能满足需求,此时需要将redis部署到多台机器上,用于写入数据的redis,称之为master,而只负责读取数据的redis,称之为slave

redis主从的特点


1.master只负责写入数据,slave只负责读取数据
2.当slave创建的时候,会向master发送一个人同步的命令,master接收到命令以后,
  将数据同步给slave
3.master只能有一个,而slave可以有多个


redis及可视化工具安装 

1.redis安装

(1.)下载

下载地址:https://github.com/MicrosoftArchive/redis/releases

 下载完成后,将其内容解压到桌面的新建文件夹中,并将文件夹重命名为:redis(依照个人需要选择解压路径)。

(2.)配置

打开redis文件,找到 redis.windows.conf 文件,用编辑器打开,对其内容进行如下修改:

 

 完成后,将redis文件的路径复制,然后配置环境变量(具体操作如下):

(3.)测试

    当环境变量配置完毕,打开cmd终端,cd到redis文件中,输入 : redis-server redis.windows.conf  ,回车后,出现下图界面,表示配置成功。

这时候另启一个cmd窗口,原来的不要关闭,不然就无法访问服务端了。cd到redis文件,输入命令: redis-cli.exe -h 127.0.0.1 -p 6379 。

设置键值对 set myKey abc 

取出键值对 get myKey

2.可视化工具下载及安装

(1.)下载

下载地址:https://redisdesktop.com/download

点击去后,选择需要的版本(博主当时安装时选择的0.8.8的)

下载完成后, 安装时直接下一步即可。 

(2.)添加

 后续实例操作,在下一篇中会做详细讲解

猜你喜欢

转载自blog.csdn.net/weixin_42657103/article/details/81663157
今日推荐