scrapy框架介绍

　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

scrapy安装

Windows： # 跟步骤走即可

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted # 下载你当前python的版本

c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install pywin32

e. pip3 install scrapy

完成上步骤后

　　创建项目　　scrapy startproject 项目名

　　　　目录结构 : 如图

　　　　　　　　　　文件介绍

　　　　　　　　　 　scrapy.cfg   项目的主配置信息。（真正爬虫相关的配置信息在settings.py文件中）
　　　　　　　　     items.py     设置数据存储模板，用于结构化数据，如：Django的Model
　　　　　　　　     pipelines    数据持久化处理
　　　　　　　　     settings.py  配置文件，如：递归的层数、并发数，延迟下载等
　　　　　　　　     spiders      爬虫目录，如：创建文件，编写爬虫解析规则

　　　创建爬虫应用　 cd到项目目录执行 scrapy genspide 程序名(py名字) 爬取的网页(url)

　　　　　　　　　　（例如：scrapy genspider qiubai www.qiushibaike.com）　　　

scrapy框架day01

scrapy框架介绍

scrapy安装

完成上步骤后

创建项目　　scrapy startproject 项目名

创建爬虫应用　 cd到项目目录执行 scrapy genspide 程序名(py名字) 爬取的网页(url)

创建完成后会在如图生成文件

创建后修改settings.py中的配置:如图

USER_AGENT : 身份伪装

ROBOTSTXT_OBEY : 遵从协议 (False) 不遵从默认Ture

修改完成后执行 scrapy crawl qiubai(py名) --nolog(不打印日志) 运行程序

在spiders目录下创建的项目(爬虫文件)

猜你喜欢

scrapy框架day01

scrapy框架介绍

scrapy安装

完成上步骤后

创建项目 scrapy startproject 项目名

创建爬虫应用 cd到项目目录 执行 scrapy genspide 程序名(py名字) 爬取的网页(url)

创建完成后 会在如图生成文件

创建后修改settings.py中的配置:如图

USER_AGENT : 身份伪装

ROBOTSTXT_OBEY : 遵从协议 (False) 不遵从 默认Ture

修改完成后 执行 scrapy crawl qiubai(py名) --nolog(不打印日志) 运行程序

在spiders目录下创建的项目(爬虫文件)

猜你喜欢

　　创建项目　　scrapy startproject 项目名

　　　创建爬虫应用　 cd到项目目录执行 scrapy genspide 程序名(py名字) 爬取的网页(url)

　　　创建完成后会在如图生成文件

　　　　创建后修改settings.py中的配置:如图

　　　　　　　　　　　USER_AGENT : 身份伪装

　　　　　　　　　　 ROBOTSTXT_OBEY : 遵从协议 (False) 不遵从默认Ture

　　　　修改完成后执行 scrapy crawl qiubai(py名) --nolog(不打印日志) 运行程序