python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑

版权声明:zhiyu https://blog.csdn.net/ichglauben/article/details/82558032

1、打开cmd,进入到项目准备所放在的文件夹,执行命令:

scrapy startproject douban

然后就可以使用pycharm打开项目了
2、建立spider文件
cmd命令行进入到项目的spiders文件夹,执行:
scrapy genspider douban_spider url

scrapy genspider douban_spider movie.douban.com
这里写图片描述
其中 spiderFileName为你所想创建的spider的文件名,url为你准备爬取的服务器域名,如 http://www.abc.com

然后可以在pycharm中进行编写了,如果没有新建的文件,就同步一下项目(项目名右键)
这里写图片描述
3、命令行中运行(spiders目录下):
scrapy crawl spiderName
其中,spiderName为 你建立的spiderFileName.py文件 中 name的值,默认与spiderFileName相同

4、在pycharm中直接运行项目:
可以在setting.py同目录下新建一个main.py文件,内容为:
这里写图片描述

  1. from scrapy import cmdline
  2. cmdline.execute(‘scrapy crawl douban_spider’.split())

后续在pycharm中需要运行项目时,只需要运行此文件即可
5、将爬到的数据存储到文件中,比如 test.json或test.csv或其它,在spiders文件夹下执行cmd指令:

  1. scrapy crawl spiderName -o test.json

这里写图片描述
这里写图片描述
可以在spiders目录下看到一个test.json文件,文件编码utf-8,如果用Excel打开csv文件为乱码,可以使用文本编辑器修改编码为utf-8(bom)即可
6、将爬到的数据存储到mongo数据库
mongodb GUI管理工具下载
这里写图片描述

猜你喜欢

转载自blog.csdn.net/ichglauben/article/details/82558032