搜索引擎手记（三）之网页的去重 - 代码天地

搜索引擎手记（三）之网页的去重

其他 2018-12-02 13:58:31 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zxh19800626/article/details/50190801

015 年4月1日 ( 星期二 )

晴南风

　　今天是愚人节，我们给同事过愚人节，爬虫也让我们技术部过了愚人节。通过对抓取数据的分析，发现有20%的数据都是重复数据。开会讨论，原来有两个问题，一个爬虫引擎有重大bug；另外一个问题，竟然对网页没有做去重处理。啊！My GOD！

通过和群里进行技术交流，大概明白了解决问题的思路。爬虫爬下的网页在通过ETL工具抽取到搜索引擎时候需要对内容进行去重的操作。评价网页内容重复的问题，大体上分为4种：

1、完全重复文档内容和布局格式上毫无差别；

2、内容重复文档内容相同，布局格式不同；

3、布局重复文档重要的内容相同，布局相同；

4、部分重复文档重要内容相同，布局格式不同。

我们出现的问题的原因，是因为爬虫组，只是对内容进行了简单的md5加密，作为索引。

不专业害死人呀！

我翻了翻网上的资料，网页去重流程大体如下图：

（上附图是我从网站找的）

去重的算法还不太复杂。大体上有Shingle算法、SuperShinge算法、I-Match算法和SimHash算法。在后面的几个章节，我会一一娓娓道来。

猜你喜欢

转载自blog.csdn.net/zxh19800626/article/details/50190801

搜索引擎手记（三）之网页的去重

搜索引擎手记（一）之引擎工作的开始

搜索引擎手记（二）之爬虫的开发

搜索引擎-----浅说查重

搜索引擎对网页抓取

搜索引擎网页搜集策略

搜索引擎复制网页的算法

搜索引擎之倒排索引

学习之--搜索引擎

搜索引擎之骚操作

SEO之搜索引擎简史

Java项目之搜索引擎

搜索引擎

平行网页寻源（第三篇）-搜索引擎的使用

小米商城网页制作大全之搜索引擎(input,Font Awesome)

搜索（手记）

搜索引擎索引之索引基础

搜索引擎之正排索引和倒排索引

搜索引擎概述之倒排索引索引

搜索引擎索引之索引更新策略

超实用的浏览器插件|CSDN插件(快速搜索引擎、去广告、各种网页开发插件)

https协议网页能够被搜索引擎收录吗？

行业垂直搜索引擎网页抓取项目

搜索引擎对库中网页的维护策略

怎样把搜索引擎收录的网页记录删除呢？

搜索引擎网页排序算法研究

搜索引擎蜘蛛抓取网页规则

语义化，让你的网页更好的被搜索引擎理解

python 手把手教你基于搜索引擎实现文章查重

手机网页端查看百度等搜索引擎网页快照的方法

今日推荐

周排行

Grayscale的报告显示，机构投资者接受比特币

任意角度的场景文本检测论文简单总结

努力学习的意义

蒟蒻 Wendigo 表情包

Ubuntu 14.04 Install Sublime Text 3

守卫

python3中request.urlopen()和requests.get()方法的区别

花点时间顺顺Git（下）

docker安装ngnix进行挂载

spring boot 2 统一异常处理

每日归档

更多

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)