使用scrapy框架进行数据爬取。以top250部豆瓣电影数据为例,学习加深scrapy框架理解。
scrapy框架学习推荐慕课网的教学 网址:https://www.imooc.com/learn/1017
目标地址:https://movie.douban.com/top250
创建豆瓣电影爬虫,执行成功之后,可在目录下找到创建的爬虫项目
scrapy startproject doubanMovie
接着进入到爬虫项目文件中,使用命令创建生成爬虫文件,用于爬取数据页面功能的实现
#进入到项目文件中 cd doubanMovie #创建爬取数据的文件 scrapy genspider doubanMovieSpider movie.douban.com
成功执行之后可以看到创建的爬虫文件
至此整个项目创建完成,接下来就是实现爬取数据功能。
要想爬取数据,首先要将项目运行起来,执行的命令是:
scrapy crawl doubanMovieSpider
但是次次在cmd窗口下进行执行,实在麻烦,要在项目创建一个文件,取名main.py即可。编辑内容
之后只需要在项目中运行main.py文件即可。到此整个爬虫项目完成。
项目代码链接地址:https://files.cnblogs.com/files/no-end-to-learning/SpiderProject.zip