python分布式爬虫实践 - 代码天地

python分布式爬虫实践

其他 2018-05-08 12:20:22 阅读次数: 4

近期阅读了范传辉的Python爬虫开发与项目实战一书，对其第七章的分布式爬虫进行实操

遇到自己环境上代码跑不通的问题，经一番功夫，发现主要是由以下几点造成的：

书中环境：python2.7，linux

本地环境：python3.4，window

1.文中导入模块为import Queue，py3中应该为from multiprocessing import Queue

2.window环境下lambda无法被序列化，要使用自定义函数，该自定义函数需要放在代码开头，如下;

url_q=Queue()
result_q=Queue()
def get_url_q():
    global url_q
    return url_q
def get_result_q():
    global result_q
    return result_q
class NodeManager(object):
    def start_manager(self,url_q,result_q):
        BaseManager.register('get_task_queue',callable=get_url_q)
        BaseManager.register('get_result_queue',callable=get_result_q)

3.window环境下BaseManager函数address传参为‘’的话不代表本机，linux才代表本机，应明确写清本机地址，且py3下authkey传参应该编码转换，如下:

manager=BaseManager(address=('127.0.0.1',8001),authkey='baike'.encode('utf-8'))

4.另外实操中主要遇到的问题就是数据的编码格式的转换，编码格式不同会导致爬虫执行到某个步骤就一直暂停了（PS：我的是卡在解析网址后一直没动）

5.代码主要由两个窗口执行，其中NodeManager只用于启动进程，不输出，SpiderWork进程用于输出

猜你喜欢

转载自www.cnblogs.com/hipth/p/8966784.html

python分布式爬虫实践

Python 分布式爬虫

分布式爬虫系统实践简述

Python爬虫之分布式爬虫

python网络爬虫——分布式爬虫

python爬虫--分布式爬虫

python3 分布式爬虫

python 小小的分布式爬虫

Python分布式爬虫学习（一）

Python分布式爬虫详解（二）

Python分布式爬虫详解（一）

Python分布式爬虫详解（三）

python分布式爬虫--房天下

python爬虫之Scrapy分布式

python主从分布式爬虫

python爬虫学习：分布式抓取

理解Python分布式爬虫原理

Python分布式爬虫1

Python分布式爬虫顶级教程

Python的分布式网络爬虫

Python分布式应用实践

分布式爬虫

爬虫分布式

Python爬虫教程-34-分布式爬虫介绍

6-Python爬虫-分布式爬虫/Redis

分布式爬虫与增量式爬虫

Python爬虫大战、 Scrapy分布式原理以及分布式部署

Python笔记：分布式爬虫原理与Scrapy分布式应用

简单分布式爬虫

分布式爬虫(2)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)