网络爬虫Larbin的学习（三）——整体架构 - 代码天地

网络爬虫Larbin的学习（三）——整体架构

编程语言 2018-05-14 10:31:23 阅读次数: 2

这一回开始对Larbin的源代码进行学习。经过一段时间的学习，我发现larbin的架构还是不错的。而且他的架构中使用到了许多技术，在阅读源代码的过程中也可以捡起以前学过的东西。

进入%LARBIN_HOME%/src,我们可以看到许多源文件，这些源文件主要分为两大类：

（1）主控类
main.cc : 主控程序，调度所有代码进行工作
global.h,global.cc : 实际上的核心程序，包含爬虫的所有核心内容

（2）配置类
option.h : 策略方面的配置
types.h ：具体数值的配置

关于具体数值的问题，我们在第二部分已经说过了，下面重点看main.cc

（1）在main函数的起始处，对global类进行初始化。global类是整个爬虫的核心，因此对他的分析要慢慢深入。在此我们只要知道，global类中有许多静态成员变量，也就是说可以作全局变量使用，这里主要就是对他们进行初始化。

（2）waitbandwidth() 等待带宽满足需要
（3）input() 将需要爬取的seed URL装载进来
（4）sequencer() 对将要爬取的页面进行缓冲，确定每一轮可以进行爬取的页面
（5）fetchDns() 获取待爬取页面的IP地址和端口号，这需要通过练习DNS服务器将URL进行转换
（6）fetchOpen() 获取当前网页
（7）checkAll() 做一些检验和网页链接分析（也是我们可以定制化的一部分）

这几部基本上包含了一个爬虫的特征，那么对于一个爬虫来说，需要考虑的问题还有很多。

比方说网页分析与网页保存问题。在爬虫爬取过程中，应该花多大的工夫去分析一个网页？网页的保存形式应该是怎样？

这些我们将在后面做详细地分析与介绍。

下一部分将对一些基本数据结构做一些介绍

猜你喜欢

转载自hsmyy198712.iteye.com/blog/765064

网络爬虫Larbin的学习（三）——整体架构

网络爬虫Larbin的学习（一）——larbin的配置

网络爬虫Larbin的学习（二）——larbin定制化

网络爬虫Larbin的学习（四）——基本数据结构

深度学习入门（二）：神经网络整体架构

Flutter系列（三）整体架构

GeoMesa源码学习--整体架构

Spring —— 源码学习【整体架构】

LevelDB整体架构学习笔记

学习Transformer：整体架构与实现

Python网络爬虫学习笔记（三）

Python实现网络爬虫基础学习（三）

《精通python网络爬虫》学习笔记三

java网络爬虫基础学习（三）

muduo 网络库的整体架构图

5G网络整体架构

深度学习网络架构(三):VGG

网络爬虫本质及网络爬虫架构

对计算机网络学习的一点心得1之网络整体协议架构理解

GeoMesa源码学习 (1)：整体架构

jQuery源码学习（1）- 整体架构

Mybatis源码学习之整体架构

Ceph学习记录2-整体架构

Spring学习（一）--Spring的设计与整体架构

jquery源码学习-1-整体架构

k8s 学习整体架构

Mybatis学习笔记——mybatis的整体架构

网络爬虫（三）

RocketMQ学习笔记（7）----RocketMQ的整体架构 RocketMQ学习笔记（7）----RocketMQ的整体架构

网站技术架构学习整体贴-《大型网站技术架构》

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)