scrapy--crawSpider

1.创建CrawlSpider

打开terminal 输入 scrapy genspider -t crawl xxx xxx.com

2.与一般的spider多了两件东西:一般我们需要自己做url的请求链接,这里的LinkExtractor回去匹配所有符合的正则表达

3.原理

from scrapy.linkextractor import Linkextractor

link_list = LinkExtractor(allow=("start=\d+"))    :"start=\d+"是指链接的正则匹配规则

会去匹配响应文件:link_list.extract_links(response)

4.使用

link_etractor = LinkExtractor(allow=("start=\d+"))

#获得列表中的链接,依次发送请求,并且继续跟进,调用指定的回调函数

  Rules =[link_etractor,  -----link操作对象,call_back =  ------指定回调函数,follow=   ------是否进行深入爬取 ]

扫描二维码关注公众号,回复: 2118920 查看本文章

(需要注意的是,这里的回调处理函数,需要自己专门写一个处理函数,不能采用原来的默认的处理函数)


猜你喜欢

转载自blog.csdn.net/huangmengfeng/article/details/80023680