数学之美-第9章图论与网络爬虫笔记 - 代码天地

数学之美-第9章图论与网络爬虫笔记

其他 2020-04-09 21:32:47 阅读次数: 0

（1）用BFS还是DFS？

不考虑时间因素，互联网静态不变的情况下，认为两者能够在大致的时间里完成所有的整个静态网页的爬取工作。

工程上，做不到，网络爬虫更应定义为“如何在有限的时间里最多的爬下那些重要的网页”，一般认为一个网页的首页是最重要的。因此BFS优于DFS。

但并非不使用DFS，这和爬虫的分布式结构以及网络通信的握手成本有关，“握手”指下载服务器与网站的服务器建立通信的过程。

时间网络爬虫是由成百上千万台服务器组成的分布式系统，对于某一个网页，一般由特定的一台或者几台服务器专门下载，这样可以避免握手次数太多。

实际应用的网络爬虫不是对网页次序的简单BFS或者BFS，而是一个相对复杂的下载优先级排序的方法，叫做“调度系统”(Scheduler)，会有一个优先队列（Priority Queue）。BFS成分更加多一些。

（2）网页的分析和URL提取

除了HTML以外，不少网页是一些脚本语言（比如JavaScript）生成。

（3）记录访问过的URL，URL表

哈希表判重：在一台下载服务器上建立和维护一张哈希表并不难，如果是分布式，多台服务器一起下载网页，就会出现问题：

1、哈希表太大，一台下载服务器存不下。

2、每台下载服务器在开始下载前和完成下载后都要维护这张哈希表，存储哈希表的通信就成为爬虫系统的瓶颈。

比较好的问题2的解决方法：A、明确每台下载服务器的分工，一看到某个URL就知道交给哪台服务器去执行B、批量处理，减少通信的次数。

发布了66 篇原创文章 · 获赞 19 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/RitaAndWakaka/article/details/80158807

数学之美-第9章图论与网络爬虫笔记

《数学之美》第9章图论和网络爬虫

吴军《数学之美》之图论和网络爬虫

数学之美系列六：图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

《数学之美》——第十二章个人笔记

第9章图论算法

“数学之美”笔记

数学之美-笔记

《数学之美》——第七、八章个人笔记

《数学之美》——第十章个人笔记

《数学之美》——第五章个人笔记

《数学之美》——第一章个人笔记

《数学之美》——第三章个人笔记

《数学之美》——第九章个人笔记

《数学之美》——第十一章个人笔记

《数学之美》笔记4

《数学之美》笔记3

《数学之美》——个人笔记

《数学之美》个人笔记

《数学之美》第8章简单之美--布尔代数和搜索引擎

《数学之美》第10章 PageRank--Google的民主表决网页排名技术

《数学之美》第7章贾里尼克和现代语言处理

《数学之美》第11章如何确定网页和查询的相关性

《数学之美》第14章余弦定理和新闻的分类

数学之美第1章文字和语言 vs 数字和信息

数学之美第2章自然语言处理：从规则到统计

1《数学之美》第1章文字和语言 vs 数字和信息

数学之美读书笔记第一章

《数学之美》读书笔记&思考

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)