Python爬虫学习（五） - 代码天地

Python爬虫学习（五）

其他 2018-05-07 12:17:25 阅读次数: 4

前几篇博文写的都是单机版爬虫，但是该单机版存在一些明显的问题：

1）无法保存爬虫的中间状态。如果爬到一半突然断电程序挂了，难道又要从0开始？而且很多主题爬虫根本就没有结束的时候，一直处于运行状态。

2）单机单线程版存在明显的性能瓶颈，可通过改为多线程多进程提高效率。

3）其队列、去重集合都是程序变量，容量有限，存在溢出风险。

针对上述问题，楼主引进Redis和Mongodb，并将爬虫改为分布式版本，可有效提升效率和稳定性（Mongodb暂时没用上，还是直接存文件），程序源码链接：https://github.com/yhangang/DSpider。其目录结构如下：

其中，master包下面存储主节点的代码，slave包下面存储工作节点代码，tool包存储工具类，spider.conf是全局配置文件。在运行前需要安装依赖包：

pip install requests
pip install beautifulsoup4

pip install redis

具体的代码就不贴出来了，可去github上获取。其原理是主节点使用redis存储待爬队列和已爬集合，其他结点线程从redis获取信息进行工作，Redis会对中间结果做持久化，不怕断电。Redis底层的原子操作，保证程序不会出现线程安全类问题。

猜你喜欢

转载自blog.csdn.net/u010227646/article/details/80014859

Python爬虫学习（五）

python爬虫学习(五)

Python爬虫学习笔记（五）

Python网络爬虫学习笔记（五）

python学习之新闻爬虫（五）

python爬虫学习笔记(五)-URLError与Cookie

Python爬虫学习笔记（五）————JsonPath解析

【Rollo的Python之路】Python 爬虫系统学习 (五) Selenium

python爬虫系列（五）

Python 爬虫 (五)

python网络爬虫五

Python——爬虫（五）

Python爬虫——案例（五）

Python爬虫（五）

Python3.X网络爬虫学习（五）

python爬虫学习笔记五：Re库的介绍和使用

Python学习（五）：爬虫之爬各城市天气

python爬虫学习（五）药监局化妆品生产许可

python[五]：python爬虫进阶

Python爬虫--高性能的异步爬虫（五）

Python爬虫入门<五>—DebugLog

python爬虫(五)-------------------xml与HTML

Python 爬虫（五）：PyQuery 框架

Python学习（爬虫学习）

Python爬虫学习：简单的爬虫

python爬虫学习笔记（一）-- Python函数五种参数类型+soup.find()函数使用

【爬虫学习五】 Python大型爬虫案例: 抓取某电商网站的商品数据（2）代码和效率优化

Python爬虫案例解析：五个实用案例及代码示例（学习爬虫看这一篇文章就够了）

python爬虫专栏学习

Python爬虫学习（四）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)