【Scrapy框架日志管理及爬取效率】 -- 2019-08-09 10:11:34 - 代码天地

【Scrapy框架日志管理及爬取效率】 -- 2019-08-09 10:11:34

其他 2019-08-09 10:28:01 阅读次数: 0

原文: http://106.13.73.98/__/140/

日志等级

ERROR：一般错误

WARNING：警告

INFO：一般信息

DEBUG：调试信息

管理日志

在settings.py配置文件中写入如下两项配置来管理日志：
# 指定日志等级
LOG_LEVEL = 'ERROR'

# 指定日志存储文件
LOG_FILE = 'log.txt'
# 如果你指定了日志存储文件，则终端不再打印日志信息

爬取效率

1.增加并发
Scrapy默认开启的并发线程为32个，可以适当进行增加。
在settings.py配置文件中通过 CONCURRENT_REQUESTS 指定并发数。

2.降低日志级别
在运行Scrapy时，会有大量的日志信息输出，我们可以通过设置日志级别为INFO或ERROR来降低CPU的使用率。
在settings.py配置文件中通过 LOG_LEVEL 指定日志级别。

3.禁用cookie
如果不是真的需要cookie，可将其禁掉，从而提升CPU的使用率，提升爬取效率，默认便处于禁用状态。
在settings.py配置文件中通过 COOKIES_ENABLED 来启用或禁用cookie。

4.禁用重试
对失败的HTTP进行重新请求(重试)会减慢爬取速度，因此可以禁用重试。
在settings.py配置文件中通过 RETRY_ENABLED 来启用或禁用重试。

5.减少下载超时时间
如果对一个非常慢的链接进行爬取，减少下载超时可以让卡住的链接快速被放弃，从而提升爬取效率。
在settings.py配置文件中通过 DOWNLOAD_TIMEOUT 来指定超时的时间（秒）。

补充：指定条件结束爬虫

CLOSESPIDER_TIMEOUT 指定时间（秒）过后结束爬虫

CLOSESPIDER_ITEMCOUNT 在抓取了指定数目的Item后结束爬虫

CLOSESPIDER_PAGECOUNT 在收到了指定数目的响应后结束爬虫

CLOSESPIDER_ERRORCOUNT 在发生了指定数目的错误后结束爬虫

原文: http://106.13.73.98/__/140/

猜你喜欢

转载自www.cnblogs.com/gqy02/p/11325413.html

【Scrapy框架日志管理及爬取效率】 -- 2019-08-09 10:11:34

【Scrapy框架设置UA池与代理池】 -- 2019-08-09 11:05:53

【深入HTTP协议】 -- 2019-08-09 12:11:34

【线程理论篇】 -- 2019-08-09 11:24:52

【Python collections】 -- 2019-08-09 11:03:44

【DRF认证】 -- 2019-08-09 11:00:30

【Django】认证系统 -- 2019-08-09 11:22:49

【Sanic】Hello world -- 2019-08-09 10:00:13

【Django】Session -- 2019-08-09 10:16:45

【Webpack】 -- 2019-08-09 10:50:51

【Django】模板系统 -- 2019-08-09 10:32:47

【HTTP与HTTPS的区别】 -- 2019-08-09 10:31:41

【Django】信号调度 -- 2019-08-09 10:45:29

【正则表达式介绍篇】 -- 2019-08-09 09:59:10

【Django】中间件 -- 2019-08-09 10:10:27

【Django】连接使用多个数据库 -- 2019-08-09 11:23:51

【Docker端口映射】 -- 2019-08-09 11:04:47

【使用云打码识别图片验证码】 -- 2019-08-09 11:25:58

【Flask之Flask-SQLAlchemy】 -- 2019-08-09 10:15:44

【Linux系统引导过程】 -- 2019-08-09 10:14:42

【Docker入门篇】 -- 2019-08-09 10:44:27

【Linux下权限控制之chmod与chown命令】 -- 2019-08-09 10:49:48

【Python functools.partial 偏函数】 -- 2019-08-09 10:30:38

【Vue实例生命周期】 -- 2019-08-09 12:10:28

【Python下进程同步之互斥锁、信号量、事件机制】 -- 2019-08-09 11:01:33

【Scrapy框架之CrawlSpider全站爬取】 -- 2019-08-11 18:29:01

【Scrapy框架日志管理及爬取效率】

学习日志——2019/09/08

【DRF权限】 -- 2019-08-09 12:08:24

【Ansible模块相关】 -- 2019-08-09 12:07:22

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)