scrapy中spider和crawlspider的区别 - 代码天地

scrapy中spider和crawlspider的区别

其他 2019-01-15 19:49:17 阅读次数: 0

版权声明：欢迎copy，只求有用 https://blog.csdn.net/muzhe1024/article/details/85692496

spider和crawlspider都是用来实现数据解析的爬虫模块,但是还是有很大区别的.
原理来说都可以达到目的,但是应用情况嫩实现数量级的区别.

建立方式:
scrapy genspider 爬虫名指定域
scrapy genspider -t crawl 爬虫名指定域

spider有parse函数
crawl spider没有parse函数

crawl spider生成了一个rules,内含一个元祖或者列表,包含rule对象
rule标识规则,包含linkextractor,callback,follow等参数.
linkextractor连接提取器,可以通过正则,或者xpath或者css规则提取.
callback标识经过提取器取出来的url地址响应的回调函数,
重点是follow=true/falase 标识是否在当前页面中继续使用该规则进行深层提取.
如果一个被提取的url满足多个Rule，那么会从rules中选择一个满足匹配条件的Rule执行

另外,由于没有请求参数,crawlspider无法进行meta参数的传递,这就限制了他的一部分功能,比如下面的网页,这种

如果要求提取所有第二层页面中的职位发布信息,而且需要发布时间,用crawlspider提取的话,能很快匹配第二页数据,但是发布时间需要拼接,实现其来很麻烦,就不适合使用crawlspider,

如下图

像这样的网站,数据都在同一个页面内,翻页后的数据格式页相同,用crawlspider就能实现快速的提取和翻页解析

注意:一般我们提取翻页信息会直接匹配"下一页"标签的链接,但是使用框架来爬取的时候,一般用匹配的是页数标签的链接,因为框架默认开启了多进程爬取,使用页数标签的连接进行解析,就相当于程序执行时候,就在1,2,3,4,5,13这些页面中解析,就是同时在进行6个页面的抓取,而用下一页的方法就只在两页中爬取,并且比如第五页连接内的页数标签内还会有性的页码,就会更快的执行完成整个项目.这是数量级的变化.

猜你喜欢

转载自blog.csdn.net/muzhe1024/article/details/85692496

scrapy中spider和crawlspider的区别

Scrapy的Spider类和CrawlSpider类

scrapy中Spider类与CrawlSpider类的使用比较

Spider和CrawlSpider

Spider和CrawlSpider的源码分析

Redisspider的爬虫和scrapy.spider的区别

Scrapy框架中 Spider 子类 CrawlSpider 爬虫进行全站爬取方法

Scrapy框架中的CrawlSpider

scrapy 中crawlspider 爬虫

Scrapy中CrawlSpider

scrapy中Crawlspider的用法

scrapy的CrawlSpider和cookie

Spider & CrawlSpider

CrawlSpider（规则爬虫）和Spider版爬虫

Scrapy中的Spider Middleware

scrapy框架中crawlspider的使用

scrapy 中的CrawlSpider 类的介绍

Scrapy CrawlSpider介绍和使用

scrapy简单爬虫（scrapy.Spider）与深度爬虫（spiders.CrawlSpider）的对比

scrapy篇(2)scrapy中的spider部分

scrapy框架中Crawlspider模块源码剖析

菜鸟写Python-Scrapy：Spider源码分析扩展-CrawlSpider使用分析（详解）

scrapy Spider CrawlSpider redis 总汇以及一些源码分析

Scrapy——Spider

Scrapy: Spider

scrapy框架中Spider源码解析

Spider-scrapy 中的 xpath 语法与调试

Scrapy中如何向Spider传入参数

scrapy 监控spider启动和关闭

Scrapy CrawlSpider中Rule中写allow的问题！

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)