scrapy和requests的优劣 - 代码天地

scrapy和requests的优劣

其他 2018-12-17 17:03:01 阅读次数: 0

学过爬虫的人一定知道scrapy和requests，前两天看了python的包下载量统计，下载量排名前三百的包中能找到django，tornado，requests甚至已经很老的twisted，但就是没有scrapy，这个问题引起了我的好奇，因为我之前在公司做项目就是用的scrapy采集数据，我对爬虫这个行业其实并不能算特别了解，上网找了些这方面的资料。

打两个也许那么恰当的比喻，其实scrapy就好像爬虫界的AK47，胜在做某些大批量数据采集时的简单易用，小孩子也能用拿他杀敌，而requests就像是瑞士军刀，经过专业训练的高手用它来杀敌于无形。但是数据采集中最重要的问题还是破解反爬，而scrapy作为一个框架，始终限定得太死了，太不灵活，在反爬和爬虫的对决中往往跟不上敌人的脚步，固然scrapy也有中间件，但比起用requests拓展功能，还是多了不少限制。当然scrapy还有一个优势是进行长期的项目维护管理。

我最近想把自己在豆瓣上的博客都爬下来，遇到了scrapy因为缺少cookie无法直接抓取页面，但是requests能够直接抓取页面的情况。这让我想起了以前写爬虫的时候不少需要cookie的网站有时候得用requests或selenium获得cookie再交给scrapy进行抓取，看来scrapy在cookie方面的框架原生支持是很弱的，尽管这有可能是出于框架的可拓展方面的考虑，使得scrapy能够可定制它的cookie获得流程。但对于一些小的抓取需求来说，这就太不方便了。

猜你喜欢

转载自blog.csdn.net/kekefen01/article/details/84734139

scrapy和requests的优劣

requests库和Scrapy比较

Requests 和 Scrapy 添加动态IP代理

使用requests和scrapy模拟知乎登录

Requests爬虫和scrapy框架多线程爬虫

爬虫系列 requests和bs4 scrapy

Scrapy or Requests提交表单

Scrapy-requests模块

Scrapy start_requests

对urllib、requests、scrapy的总结

Scrapy框架--Requests对象

Spark和Hadoop优劣

设置代理 IP | Requests & Scrapy

智联招聘抓取---scrapy框架和requests库两种方式实现

POW 与 POS 的本质和优劣

spark和strom优劣分析

JSON技术的简介和优劣

scrapy学习笔记—— CrawlSpider Requests添加header

scrapy inline_requests 多次请求连用

Scrapy学习笔记-基本库的使用requests

Dubbo和SpringCloud的区别和优劣

解析spark和mapReduce的区别和优劣

BFS和DFS的优劣和场景比较

scrapy-redis记录之，重写make_request_from_data和make_requests_from_url

在WEB方面json和XML的优劣

各个JSON技术的简介和优劣

然之协同和worktile优劣对比

浅谈windows系统和linux系统的优劣

理解JWT的使用场景和优劣

Eureka和ZooKeeper的区别及优劣势

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)