Scrapy 入门

2019-06-13

1< scrapy的安装

命令行安装

pip install scrapy

<常见错误是缺少 wim32api

安装win32api

pip install pywin32

<还有就是twisted没有安装

到链接找到对应的版本下载安装

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

命令行打开输入pip install 把文件拖进来就OK了

1 引擎打开一个网站 open a domain 找到处理该网站的Spider并向该Spider请求第一个爬取的URL

2 引擎从Spider中获取第一个要爬取的URL并在调度器Scheduler中以Request调度

3 引擎向调度器请求下一个要爬取的URL

4 调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件请求request方向转发给下载器

5 一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件（返回Response方向）发送给引擎

6 引擎从下在其中接收Response并通过Spider中间件（输入方向）发送给Spider处理

7 Spider处理Response并返回爬取到的Item及（跟进的新的Request给引擎

8 引擎将（Spider返回的）爬取到的Item给Item Pipeline，将Spider返回的Request给调度器

9 从第2步重复知道调度器中没有更多的Request，引擎关闭对该网站的执行进程

scarpy 使用命令操作

创建一个scrapy工程

scrapy startproject <your-project-name>
# 例如 创建一个名为first_spider工程 
scrapy startproject first_spider

所在的目录就创建了一个first_spider的目录

我们看一下这个目录的结构

创建一个scrapy工程