scrapy基本操作

创建项目
scrapy startproject ****(项目名)

创建一个基础爬虫类
scrapy genspider ****spiders名)  "–---"(爬虫作用范围)
例:scrapy genspider meiju meijutt.com
scrapy genspider -t 模板名字 爬虫名字 爬虫的网址
执行命令,运行程序 scrapy crawl ****(爬虫名).
用于调试
scrapy shell
爬虫的网址
例:scrapy shell meijutt.com
 
items.py 负责数据模型的建立,类似于实体类。存放的是我们要爬取数据的字段信息
middlewares.py 自己定义的中间件。
pipelines.py 负责对spider返回数据的处理。可以让写入到数据库,也可以让写入到文件等等。
settings.py 负责对整个爬虫的配置。
spiders目录 负责存放继承自scrapy的爬虫类。为主要的爬虫代码,包括了对页面的请求以及页面的处理
scrapy.cfg scrapy基础配置
 

猜你喜欢

转载自www.cnblogs.com/cekong/p/9968733.html