python+scrapy爬虫(爬取链家的二手房信息)

1、目的:通过爬取成都链家的二手房信息,主要包含小区名,小区周边环境,小区楼层以及价格等信息。并且把这些信息写入mysql。

2、环境:scrapy1.5.1 +python3.6

3、创建项目:创建scrapy项目,在项目路径执行命令:scrapy startproject LianJiaScrapy

4、项目路径:(其中run.py新加的,run.py是在eclipse里面启动scrapy项目,方便调试的)

这些文件分别是:

scrapy.cfg:项目的配置文件 LianJiaScrapy:

该项目的python模块。之后您将在此加入代码。

 LianJiaScrapy/items.py:项目中的item文件,设置对应的参数名,把抓取的数据存到对应的字段里面。(类似字典来存数据,然后可提供给后面的pipelines.py处理数据) LianJiaScrapy/pipelines.py:项目中的pipelines文件,抓取后的数据通过这个文件进行处理。(比如我把数据写到数据库里面就是在这里操作的) LianJiaScrapy/spiders/:放置spider代码的目录。(数据抓取的过程,并且把抓取的数据和items的数据一一对应)

 5、创建爬虫的主文件:cmd进入到主目录,

输入命令:scrapy genspider lianjia_spider,

查看spiders目录下,新建了一个lianjia_spider.py

6、items.py编写:

7、爬虫文件lianjia_spider.py编写

8、数据处理文件pipelines.py的编写:

9、要使用pipelines文件,需要在settings.py里面设置:

10、在mysql的库test_scrapy里面新建表:

11、运行爬虫项目: 这里可以直接在cmd里面输入命令:scrapy crawl Lianjia执行。 我在写脚本的时候,需要调试,所以新加了run.py,可以直接运行,也可以debug。 我的run.py文件:

12、爬取的过程:

13、爬取的结果:

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89890418