【Scrapy框架日志管理及爬取效率】 - 代码天地

【Scrapy框架日志管理及爬取效率】

其他 2019-01-31 02:01:06 阅读次数: 0

日志等级

ERROR：一般错误

WARNING：警告

INFO：一般信息

DEBUG：调试信息

管理日志

在settings.py配置文件中写入如下两项配置来管理日志：
# 指定日志等级
LOG_LEVEL = 'ERROR'

# 指定日志存储文件
LOG_FILE = 'log.txt'
# 如果你指定了日志存储文件，则终端不再打印日志信息

爬取效率

1.增加并发
Scrapy默认开启的并发线程为32个，可以适当进行增加。
在settings.py配置文件中通过 CONCURRENT_REQUESTS 指定并发数。

2.降低日志级别
在运行Scrapy时，会有大量的日志信息输出，我们可以通过设置日志级别为INFO或ERROR来降低CPU的使用率。
在settings.py配置文件中通过 LOG_LEVEL 指定日志级别。

3.禁用cookie
如果不是真的需要cookie，可将其禁掉，从而提升CPU的使用率，提升爬取效率，默认便处于禁用状态。
在settings.py配置文件中通过 COOKIES_ENABLED 来启用或禁用cookie。

4.禁用重试
对失败的HTTP进行重新请求(重试)会减慢爬取速度，因此可以禁用重试。
在settings.py配置文件中通过 RETRY_ENABLED 来启用或禁用重试。

5.减少下载超时时间
如果对一个非常慢的链接进行爬取，减少下载超时可以让卡住的链接快速被放弃，从而提升爬取效率。
在settings.py配置文件中通过 DOWNLOAD_TIMEOUT 来指定超时的时间（秒）。

补充：指定条件结束爬虫

扫描二维码关注公众号，回复： 5132572 查看本文章

CLOSESPIDER_TIMEOUT 指定时间（秒）过后结束爬虫

CLOSESPIDER_ITEMCOUNT 在抓取了指定数目的Item后结束爬虫

CLOSESPIDER_PAGECOUNT 在收到了指定数目的响应后结束爬虫

CLOSESPIDER_ERRORCOUNT 在发生了指定数目的错误后结束爬虫

猜你喜欢

转载自blog.csdn.net/qq_41964425/article/details/86476450

【Scrapy框架日志管理及爬取效率】

【Scrapy框架日志管理及爬取效率】 -- 2019-08-09 10:11:34

Scrapy 框架提高爬取效率的配置

scrapy框架的底层原理和如何提高爬取效率

提升Scrapy框架爬取数据效率的五种方式

提高scrapy的爬取效率

提高Scrapy爬取效率

scrapy爬虫学习日志[crawl框架爬取pexels图片]

Scrapy框架：爬取博客

如何提升scrapy爬取数据的效率

如何提高scrapy的爬取效率

提高scrapy爬取效率配置

scrapy爬取效率提升配置

使用Scrapy框架爬取腾讯新闻

scrapy框架爬取小说信息

利用scrapy框架爬取淘宝

Scrapy框架：爬取知乎

Scrapy框架爬取海量妹子图

scrapy框架之爬取豆瓣电影

Scrapy框架：爬取云起

scrapy框架爬取前程无忧

爬虫 Scrapy框架"链家爬取"

【Scrapy框架之CrawlSpider全站爬取】

scrapy框架爬取笔趣阁

使用Scrapy框架实现爬取

scrapy--- 爬虫框架爬取图片

Scrapy框架之爬取拉勾网

scrapy框架爬取大乐透数据

使用Scrapy 框架爬取段子（入门）

scrapy框架之全站数据的爬取

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)