Scrapy框架爬虫学习--2

在之前的学习中已经试过了demo,今天看一下Scrapy的工程是怎样的。本节第一次正经八百的用Pycharm,暴露出了很多问题。

1. 建立工程 

在想要建立工程的目录下打开终端,输入scrapy startproject zufang。

可以看一下工程的架构,


2. 打开工程

直接用Pycharm打开工程即可。

这里可能会涉及Pycharm的几个问题:interpreter配置,以及包的配置(参考他人博客中的解决方法),关于Scrapy包的安装比较麻烦,要先安装Twisted.whl文件,再安装scrapy。  

这些都在pycharm 的terminal中运行就好了。  需要什么就都在pycharm里面的Terminal安装就好了。

3. 新建爬虫.py脚本

在spiders文件夹下建立ganji.py 然后编写代码


inti.py               --> 保持默认即可,这是初始化的文件。

items.py           -->  自定义项目类的地方,也就是说爬虫获取到数据之后,传入到管道文件pipelines.py的载体

pipelines.py       -->项目管道文件,对传入的项目类中的数据进行一个清理和入库

setting.py          -->    设置。 例如下载延迟、项目管文件中类的启动顺序以及自定义中间件的启动顺序

spiders目录        -->    里面只有一个inti.py文件,在该目录下定义爬虫类并继承 scrapy.Spider

middlewares.py -->     中间件配置



爬虫部分的代码就算简单写完了,这时候用Pycharm中的Terminal来运行这个爬虫

scrapy list可以看到这个工程下面所有的爬虫。可以看到,我们这里只有一个。


之后运行这个爬虫即可。



猜你喜欢

转载自blog.csdn.net/mike_shine/article/details/80679413