scrapy框架

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。

安装scrapy的时候用的是pip安装的,一直报错twisted,于是下载Twisted.whl再pip install Twisted也是失败,必须到文件所在位置,再pip install Twisted-18.4.0-cp36-cp36m-win32.whl才成功

Scrapy运行流程大概如下:

  1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
  2. 引擎把URL封装成一个请求(Request)传给下载器
  3. 下载器把资源下载下来,并封装成应答包(Response)
  4. 爬虫解析Response
  5. 解析出实体(Item),则交给实体管道进行进一步的处理
  6. 解析出的是链接(URL),则把URL交给调度器等待抓取

猜你喜欢

转载自blog.csdn.net/z13405546523/article/details/80164272