【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云

将我们的爬虫部署到腾讯云服务器上面。废话不多说，我们就来实战操作吧。

这里选择什么云服务都是可以的，阿里云，AWS，腾讯云，其他云都是没有问题的。部署方法基本一样，这里为了方便，所以笔者选择了腾讯云来做讲解。

既然我们选择了腾讯云，首先去腾讯云的官网，注册登录一下。

点击复制https://cloud.tencent.com/

当你看到这篇文章的时候，我不知道腾讯云的优惠是怎样的，反正我当时，给我了7天的云服务器体验。我就准备拿这个试试手。腾讯云界面长这个样子：

登录之后，买完服务器之后，在云服务器界面，就会看到你的服务器实例了：

界面上面有你服务器的ip地址，我们远程登录，就需要知道服务器的公网ip地址：

本地我用Mac的terminal的ssh登录，输入指令就是：

点击复制$ ssh [email protected]

然后输入密码，登录成功，就会显示如下界面：

卧槽，可以看到，有3万多次的尝试登录，看来服务器的权限如果设置的不够安全的话，是很容易被别人攻破的。

OK，服务器的东西我们就先暂时放到一边。输入

点击复制$ exit

退出登录。我们先来说说爬虫的事儿。

这里，我们待部署的爬虫，是用Scrapy写的。我们要用到的工具，有Scrapyd和Scrapyd-client。这两个是专门用来部署Scrapy爬虫的东西。OK，既然要部署爬虫，我们就来先看一下我们的爬虫长什么样子。

这里我们部署的爬虫只是我日后项目的一个简单的版本，你可以看和这两个文章里面的爬虫，里面还有详细的编写爬虫的指导教程。所以，今天我们部署的爬虫，是最早的一篇用requests写的爬虫的Scrapy版本。之所以好部署这个，是为了日后在我的公众号『皮克啪的铲屎官』里面，加入『Daily1024』自动回复的功能而做准备。以后也会推出这样的文章，敬请期待。好了，现在就简单介绍一下这个待部署的爬虫长什么样子。

工程目录还是很简单的，和标准的Scrapy创建目录一样：

至于工程怎么写，请参考文章。
我们这期的爬虫项目叫DailyWeb，里面的虫子叫Caoliu。爬虫『Caoliu』的主要功能，就是从不同的主题区里面，读取当天发布的帖子，然后将这些帖子的url，title，发布时间和id都保存下来，存入数据库中。

爬虫就是这样，我们部署的任务，目前有两个部分，远端的服务器和我们本地的电脑。我们要把本地电脑的爬虫部署到远端的服务器上，上文中我们提到了两个东西Scrayd和Scrapyd-client这两个东西，分别安装的位置就是远端服务器安Scrapyd，本地需要上传的机器安装Scrapy-client。那么，我们本地机器安装scrapy-client。

点击复制$ pip isntall scrapy-client

安装完成之后，我们需要进入到你Scrapy工程目录下，执行

点击复制$ scrapyd-deploy -l

就会生成一个scrapy.cfg文件。这个文件就是项目的配置文件，里面大概长这个样子：

详细代码如下

【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云

猜你喜欢