Scrapy学习笔记(一)——使用Pycharm搭建编写Scrapy项目的环境

写在前面:

Python版本:3.6.1

Pycharm版本:2018.1.4

第一步:命令行构建Scrapy项目

Pycharm中没有直接构建Scrapy项目的模板和指令,所以需要自行在命令行中通过指令进行项目的创建。

格式: scrapy [指令] [项目名]
eg:
    scrapy startproject [project]

 第二步:使用Pycharm打开项目并配置编译环境 

项目创建完成后,便可以通过Pycharm打开,此时对于该项目Pycharm为查找到对应的编译运行环境,需要手动配置。

点击:File->Settings->Project->Project:interpreter,在此处可以通过点击右上角的齿轮标志,创建该项目新的虚拟环境。

 在创建项目环境时,可以将全局环境中的包同时导入到项目环境,也可以重新导入对应的包。若不导入全局的包,则通过pip指令重新导入有关的包。

pip install Scrapy


第三步:创建项目启动脚本 

项目的编译环境配置完成后,接下来继续配置爬虫启动文件。在编写启动文件前,先通过指令建立一个爬虫文件,新建的爬虫文件会自动保存在spiders目录下。

scrapy genspider baidu www.baidu.com

 根据basic模板建立爬虫文件以后,就可以编写启动文件了,在根目录下创建一个begin.py文件

# -*- coding: utf-8 -*-
# @Time    : 2019/1/18 17:10
# @File    : begin.py
# @Software: PyCharm
# @Desc    : 配置Pycharm的启动Scrapy项目的启动文件

from scrapy import cmdline

cmdline.execute("scrapy crawl baidu".split())

 begin.py文件即是一个项目的执行脚本文件,内容即每次在启动爬虫项目所需要在终端输入的指令,此处的execute()方法中需要传入的是一个List类型,而非一个完整命令的字符串。然后,即可在Pycharm中进行配置,点击:Run->Edit Configurations..,添加一个python的启动项,并找到刚刚编写的begin.py文件即可。

 配置完成后,能够在Pycharm右上角看到对应的便捷启动项,这样就一个简单的配置就完成了。


第四步:启动脚本,分析结果 

启动脚本能够看到对应的输出。(这里由于百度的robots.txt文件禁止了爬虫爬取,所以得到返回数据)


写在最后:

到此使用Pycharm编写Scrapy项目所需要进行的一些配置就都已经完成了,这个演示项目是极其简陋的,比如:最后启动爬虫直接就被爬虫服务器禁止了,这里也说明了Scrapy框架默认是遵从robots协议的,当然我们能够通过伪装技术,绕过robots协议的规定进行信息的爬取,不过还是在此呼吁爬虫编写的时候多考虑服务器的压力,不给往网站造成不必要的压力。 

发布了29 篇原创文章 · 获赞 10 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_42404727/article/details/104032970