搜索引擎spider爬虫(蜘蛛)
其实当你了解了搜索引擎的工作流程、策略和基本算法后,就可以在一定程序上避免因为不当操作而带来的不必要处罚,同也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎,
站内搜索、全网搜索、垂直搜索等都用到搜索引擎;
百度抓取网页是由 蜘蛛抓取的,有的人会对蜘蛛有疑问,下面介绍一下:
什么是蜘蛛:
简单的来说就是抓取网站内容的程序 ,
当然每个搜索引擎都有各自的蜘蛛只是叫法名字不同比如
百度的:BaiduSipder
谷歌的:谷歌机器人 Googlebot
360的:360蜘蛛 360 Spider
搜狗的: sougospider
等等..........
蜘蛛抓取规则
简单的介绍一下深度优先 和 广度优先
深度优先
深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路。
广度优先
广度优先策略即spider在一个页面上发现多个链接时,并不是一条道路走到黑的,顺着一个链接继续抓下去,而是先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接
深度优先 和 广度优先的示意图
搜索引擎主动抓取网页,并进行内容处理
按照一定策略把网页抓回到搜索引擎服务器;
对抓回的网页进行链接抽离、内容处理,削除噪声、提取该页主题文本内容等;
对网页的文本内容进行中文分词、去除停止词等;对网页内容进行分词后判断该页面内容与已索引网页是否有重复,去除重复页,对剩余网页进行排序索引,然后等待用户的检索。
以上的是我的个人理解如有错如望各位大佬指出,希望对大家有帮助ヽ(゚∀゚)メ(゚∀゚)ノ ,对您有用就点个赞支持下(。ゝω・。)☆