Scrapy框架之递归解析和post请求

一、递归爬取解析多页页面数据

1、多页爬取需求分析

  需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储。
  需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。

2、实现方案

  1. 将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐)
  2. 使用Request方法手动发起请求。(推荐

3、项目创建

$ pwd
/Users/hqs/ScrapyProjects
$ scrapy startproject qiubaiByPages
New Scrapy project 'qiubaiByPages', using template directory '/Users/hqs/anaconda3/lib/python3.7/site-packages/scrapy/templates/project', created in:
    /Users/hqs/ScrapyProjects/qiubaiByPages

You can start your first spider with:
    cd qiubaiByPages
    scrapy genspider example example.com
$ cd qiubaiByPages/
$ scrapy genspider qiubai www.qiushibaike.com/text
Created spider 'qiubai' using template 'basic' in module:
  qiubaiByPages.spiders.qiubai

4、编码实现

猜你喜欢

转载自www.cnblogs.com/xiugeng/p/10056367.html
今日推荐