搜索引擎网页搜集策略 - 代码天地

搜索引擎网页搜集策略

编程语言 2018-05-14 17:52:03 阅读次数: 3

搜索引擎网页搜集策略

.1、搜索引擎是不可能将Web上的网页搜集完全的，通常都是在其他条件的限制下决定搜集过程的结束（例如磁盘满，或者搜集时间已经太长了）。因此就有一个尽量使搜到的网页比较重要的问题，这对于那些并不追求很大的数量覆盖率的搜索引擎特别重要。研究表明[NajorkandWiener,2001]，按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要（这里当然有一个重要性的指标问题）。这种方式的一个困难是要从每一篇网页中提取出所含的URL。由于HTML的灵活性，其中出现URL的方式各种各样，将这个环节做得彻底不容易（例如我们现在还没有很好的简单办法从JavaScript脚本中提取URL）。同时，由于Web的“蝴蝶结”形状[Broder,et al.,2000]，这种方式搜集到的网页不大会超过所有目标网页数量2的2/3。

2、在第一次全面网页搜集后，系统维护相应的URL集合S，往后的搜集直接基于这个集合。每搜到一个网页，如果它发生变化并含有新的URL，则将它们对应的网页也抓回来，并将这些新URL也放到集合S中；如果S中某个url对应的网页不存在了，则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索，即第一层是一个很大的集合，往下最多只延伸一层。

3、让网站拥有者主动向搜索引擎提交它们的网址（为了宣传自己，通常会有这种积极性），系统在一定时间内（2天到数月不等）定向向那些网站派出“蜘蛛”程序，扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

猜你喜欢

转载自deepfuture.iteye.com/blog/573804

搜索引擎网页搜集策略

搜索引擎对库中网页的维护策略

搜索引擎索引的策略

搜索引擎CACHE策略研究

搜索引擎对网页抓取

搜索引擎复制网页的算法

Shodan搜索引擎在信息搜集中的应用

搜索引擎索引之索引更新策略

搜索引擎

搜索引擎蜘蛛的爬取过程以及策略

简单分析搜索引擎蜘蛛的爬取策略

搜索引擎爬取网站策略

行业垂直搜索引擎网页抓取项目

https协议网页能够被搜索引擎收录吗？

怎样把搜索引擎收录的网页记录删除呢？

搜索引擎网页排序算法研究

搜索引擎蜘蛛抓取网页规则

语义化，让你的网页更好的被搜索引擎理解

利用搜索引擎进行资源搜集第三课时

搜索引擎——新闻搜索引擎

搜索引擎语法

搜索引擎资源

全文搜索引擎

开源搜索引擎

搜索引擎选择

搜索引擎总结

搜索引擎的升级

搜索引擎的区别

主要搜索引擎

关于搜索引擎

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)