搜索引擎(蜘蛛)抓取内容规则

 搜索引擎spider爬虫(蜘蛛)

其实当你了解了搜索引擎的工作流程、策略和基本算法后,就可以在一定程序上避免因为不当操作而带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎,

站内搜索、全网搜索、垂直搜索等都用到搜索引擎;

百度抓取网页是由 蜘蛛抓取的,有的人会对蜘蛛有疑问,下面介绍一下:

什么是蜘蛛:

   简单的来说就是抓取网站内容的程序 ,

当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同比如

百度的:BaiduSipder  

谷歌的:谷歌机器人 Googlebot

360的:360蜘蛛 360 Spider

搜狗的: sougospider

等等..........

 蜘蛛抓取规则

  简单的介绍一下深度优先 和 广度优先

深度优先

         深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路。

广度优先

         广度优先策略即spider在一个页面上发现多个链接时,并不是一条道路走到黑的,顺着一个链接继续抓下去,而是先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接

深度优先 和 广度优先的示意图

深度优先抓取策略

广度优先抓取策略

搜索引擎主动抓取网页,并进行内容处理

按照一定策略把网页抓回到搜索引擎服务器;

对抓回的网页进行链接抽离、内容处理,削除噪声、提取该页主题文本内容等;

对网页的文本内容进行中文分词、去除停止词等;

对网页内容进行分词后判断该页面内容与已索引网页是否有重复,去除重复页,对剩余网页进行排序索引,然后等待用户的检索。

以上的是我的个人理解如有错如望各位大佬指出,希望对大家有帮助ヽ(゚∀゚)メ(゚∀゚)ノ ,对您有用就点个赞支持下(。ゝω・。)☆

发布了104 篇原创文章 · 获赞 574 · 访问量 15万+

猜你喜欢

转载自blog.csdn.net/LQZ8888/article/details/95025889