Scrapy爬虫提高效率 - 代码天地

Scrapy爬虫提高效率

其他 2019-02-24 15:31:23 阅读次数: 0

如何提高scrapy的爬取效率

增加并发：
    默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别：
    在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’ 禁止cookie： 如果不是真的需要cookie，则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率，提升爬取效率。在配置文件中编写：COOKIES_ENABLED = False 禁止重试： 对失败的HTTP进行重新请求（重试）会减慢爬取速度，因此可以禁止重试。在配置文件中编写：RETRY_ENABLED = False 减少下载超时： 如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速被放弃，从而提升效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

Scrapy的日志等级

　　- 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。

　　- 日志信息的种类：

　　　　　　　　ERROR ：一般错误

　　　　　　　　WARNING : 警告

　　　　　　　　INFO : 一般的信息

　　　　　　　　DEBUG ：调试信息

　　　　　　　

　　- 设置日志信息指定输出：

　　　　在settings.py配置文件中，加入

LOG_LEVEL = ‘指定日志信息种类’即可。

LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。

猜你喜欢

转载自www.cnblogs.com/st-st/p/10426312.html

Scrapy爬虫提高效率

python爬虫如何提高效率

爬虫提高效率方式

提高效率的方法

Scrapy 框架中间件代理IP 提高效率

爬虫可以采集哪些数据？爬虫借用什么代理可以提高效率

Windows 平台提高效率的工具

Oracle 优化 SQL，提高效率

内联函数(inline) ，提高效率？

word简单优化--提高效率

关于提高效率的几点

接口设计---更好的提高效率

让你提高效率的 Linux 技巧

珍惜时间，提高效率

常用操作提高效率之 for 与in

sqlserver 空间查询提高效率

开发提高效率的工具

Mac提高效率的软件

[WPF]使用Fody提高效率

解读提高效率的Linux技巧

PDF Expert提高效率的技巧

提高效率的小数据池

《.NETer提高效率——环境部署》

用Excel函数提高效率

oracle 绑定变量提高效率

提高效率的插件和工具

为何索引能提高效率

在家办公如何提高效率？

Cmder安装，提高效率必备

提高效率工具之Quicker

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)