haipproxy学习分析-haipproxy架构及流程说明 - 代码天地

haipproxy学习分析-haipproxy架构及流程说明

其他 2020-05-21 08:45:48 阅读次数: 0

这篇文章的目的是阐述haipproxy的主要架构和流程。该项目关键部分是

基于Scrapy和Redis的分布式爬虫，用作IP抓取和校验，对应于项目的crawler
基于Redis实现的分布式任务调度工具，对应于项目的scheduler和redis_util.py

Crawler分为代理抓取和校验，两者实现思想类似，主要使用Scrapy的spider_idle信号和DontCloseSpider异常来阻止Scrapy在没有数据的时候关闭，灵感来自scrapy-redis。为了方便阐述，我画了一张包含各个组件的流程图，如下
在这里插入图片描述

启动调度器，包括代理爬虫调度器和校验爬虫调度器。调度器会读取rules.py中待抓取的网站，将其编排成任务存入各个任务队列中
启动各个爬虫，包括IP抓取和校验程序。项目中爬虫和调度器都是高可用的，可以根据实际情况进行分布式部署，无需改动代码。由于本文的目标不是写成该项目的详细使用文档，所以省略了如指定启动爬虫类型和调度器类型的介绍
代理IP采集爬虫启动后会到对应的任务队列中获取任务并执行，再把获取到的结果存入一个init队列中
init队列由一个特殊的校验器HttpbinInitValidator进行消费，它会过滤掉透明代理，再把可用代理输入各个Validated队列中
调度器会定时从Validated队列中获取代理IP，再将其存入一个临时的队列。这里用一个临时队列是为了让校验更加公平，如果直接从Validated队列中获取资源进行校验，那么会增大不公平性
这时候各个校验器(非init校验器)会从对应的临时队列中获取待校验的IP并对其进行校验，此处省略校验细节
校验完成后再将其放回到Validated队列中，等待下一轮校验
请求成功率(体现为分数)、响应速度和最近校验时间满足settings.py所配置要求的代理IP将会被爬虫客户端所消费
为了屏蔽各个调用语言的差异性，目前实现的客户端是squid客户端，它可以作为爬虫客户端的中间件

到此，整个流程便完了。

猜你喜欢

转载自blog.csdn.net/asmartkiller/article/details/105678508

haipproxy学习分析-haipproxy架构及流程说明

VLC架构及流程分析

【Django】Django架构流程分析

页面架构说明+学习地址

LWIP学习之流程架构

【Nginx 源码学习】Nginx 架构设计与主流程分析

mvp 架构的分析与学习

03 - springMVC架构分析-流程图解

【架构分析】Android 窗口动画流程分解

ThinkPHP架构流程分析的相关函数

Flink Standalone架构分析之启动流程

架构流程演变分析（电商案例）

Spring Mvc 学习（二）架构说明

机器学习流程错误分析

Go执行流程分析与编译和运行说明

Android 开机启动流程分析 1 INIT之前启动说明

Java架构学习（二十六）SpringBean生命周期与Aop、SpringMVC执行流程源码分析（没看）

MyBatis 源码分析----MyBatis 整体架构概要说明

对Django框架架构和Request/Response处理流程的分析

移植u-boot.2018.05 ——（一、架构、流程分析）

浅显易懂的Django架构流程分析

kafka原理分析—broker总体架构和启动流程

ThinkPHP5架构流程分析(1)

AndroidX设计架构MVVM之ViewModel创建流程原理分析

AndroidX设计架构MVVM之ViewModel创建流程原理分析

AndroidX设计架构MVVM之ViewModel创建流程原理分析

数据分析系统的流程图及架构图

指纹模块流程分析(一)之Fingerprint模块架构

Fabric源码分析之二整体架构和流程

redis源码分析之二 —整体架构和流程

今日推荐

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

为欧拉系统安装可视化界面(deepin）

MobaXterm中文版（MobaXterm-Chinese-Simplified）安装和使用

JS 网页全自动翻译 v3.4 发布，开放对 html 文件的翻译能力

这是Linus最忍不了的一集——虚幻引擎代码规范禁止使用脏话、禁止slave、master

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

周排行

一个电商SSH项目的笔记与总结

批量创建user用户

单点登录的实现方式

【前端3分钟】MVVM数据变更检测

Linux 中断学习总结

安卓手机微信不能打开App下载地址的问题微信跳转打开外部浏览器下载

HTML --盗版网页游戏

Mysql 悲观锁与乐观锁

linux下LCD驱动（一）-------LCD基础知识

Linux——设备树编译和反编译

每日归档

更多

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)