【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云

将我们的爬虫部署到腾讯云服务器上面。废话不多说,我们就来实战操作吧。

这里选择什么云服务都是可以的,阿里云,AWS,腾讯云,其他云都是没有问题的。部署方法基本一样,这里为了方便,所以笔者选择了腾讯云来做讲解。

既然我们选择了腾讯云,首先去腾讯云的官网,注册登录一下。

点击复制https://cloud.tencent.com/

当你看到这篇文章的时候,我不知道腾讯云的优惠是怎样的,反正我当时,给我了7天的云服务器体验。我就准备拿这个试试手。腾讯云界面长这个样子:

登录之后,买完服务器之后,在云服务器界面,就会看到你的服务器实例了:

界面上面有你服务器的ip地址,我们远程登录,就需要知道服务器的公网ip地址:

本地我用Mac的terminal的ssh登录,输入指令就是:

点击复制$ ssh [email protected]

然后输入密码,登录成功,就会显示如下界面:

卧槽,可以看到,有3万多次的尝试登录,看来服务器的权限如果设置的不够安全的话,是很容易被别人攻破的。

OK,服务器的东西我们就先暂时放到一边。输入

点击复制$ exit

退出登录。我们先来说说爬虫的事儿。

这里,我们待部署的爬虫,是用Scrapy写的。我们要用到的工具,有Scrapyd和Scrapyd-client。这两个是专门用来部署Scrapy爬虫的东西。OK,既然要部署爬虫,我们就来先看一下我们的爬虫长什么样子。

这里我们部署的爬虫只是我日后项目的一个简单的版本,你可以看和这两个文章里面的爬虫,里面还有详细的编写爬虫的指导教程。所以,今天我们部署的爬虫,是最早的一篇用requests写的爬虫的Scrapy版本。之所以好部署这个,是为了日后在我的公众号『皮克啪的铲屎官』里面,加入『Daily1024』自动回复的功能而做准备。以后也会推出这样的文章,敬请期待。好了,现在就简单介绍一下这个待部署的爬虫长什么样子。

工程目录还是很简单的,和标准的Scrapy创建目录一样:

至于工程怎么写,请参考文章。
我们这期的爬虫项目叫DailyWeb,里面的虫子叫Caoliu。爬虫『Caoliu』的主要功能,就是从不同的主题区里面,读取当天发布的帖子,然后将这些帖子的url,title,发布时间和id都保存下来,存入数据库中。

爬虫就是这样,我们部署的任务,目前有两个部分,远端的服务器和我们本地的电脑。我们要把本地电脑的爬虫部署到远端的服务器上,上文中我们提到了两个东西Scrayd和Scrapyd-client这两个东西,分别安装的位置就是远端服务器安Scrapyd,本地需要上传的机器安装Scrapy-client。那么,我们本地机器安装scrapy-client。

点击复制$ pip isntall scrapy-client

安装完成之后,我们需要进入到你Scrapy工程目录下,执行

点击复制$ scrapyd-deploy -l

就会生成一个scrapy.cfg文件。这个文件就是项目的配置文件,里面大概长这个样子:

详细代码如下

猜你喜欢

转载自blog.csdn.net/try2035/article/details/84561481