大数据级新闻去重实现 - 1.在线实时方案

最近针对爬虫爬下来的新闻进行去重。这个去重要考虑很多方面:

  • 不同网站发布的要点新闻,基本上是有通稿的,内容大同小异,基本一致,有些细节不同,需要去掉重复的,保留质量最好的。
  • 去重对比的时间跨度是多大呢?可能刚开始我们会考虑搜索整个库,每篇文章都对比,但是这样会效率太差了,没有必要。新闻有发布时间,以新闻发布时间前后一周为时间段, 对比这个时间段内的新闻即可。
  • 发布的新闻可能有很类似的,例如一个新闻是另外一个新闻的简述版,需要去掉简述版的。
  • 有些同样事件的新闻编辑不一样,写的文字不一样但是讲的是同一件事,这个也最好剔除掉(这种的新闻可能比较少,资讯比较多)

对于前两点需求,基本上在线去重就可以解决。后两种需求,需要更仔细严谨的分析算法(例如建立初始语料库训练word2vec进行进一步主成分分析等等),一般是离线方式实现。这个在之后会详细讲解。

本方案将基于在线和离线两种实现方式。先说说在线方式,基于的技术主要是:Levenshtein距离(编辑距离)和SimHash算法。

Levenshtein距离

莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将whale转成whatif:

  1. whate (l→t)
  2. whati (e→i)
  3. whatif (+f)

距离为3

Levenshtein距离算法比较简单并且在字符串比较小的时候比较高效,算法基本思路是:

假设m为词1的字符长度,n为词2的字符长度:

  1. 构造 行数为m+1 列数为 n+1 的矩阵 , 用来保存完成某个转换需要执行的操作的次数,将串s[1…n] 转换到 串t[1…m] 所需要执行的操作次数为matrix[n][m]的值;

  2. 初始化matrix第一行为0到n,第一列为0到m。

  3. Matrix[0][j]表示第1行第j-1列的值,这个值表示将串s[1…0]转换为t[1…j]所需要执行的操作的次数,很显然将一个空串转换为一个长度为j的串,只需要j次的add操作,所以matrix[0][j]的值应该是j,其他值以此类推。

  4. 检查每个从1到n的s[i]字符;

  5. 检查每个从1到m的s[i]字符;

  6. 将串s和串t的每一个字符进行两两比较,如果相等,则让cost为0,如果不等,则让cost为1(这个cost后面会用到);

    a. 如果我们可以在k个操作里面将s[1…i-1]转换为t[1…j],那么我们就可以将s[i]移除,然后再做这k个操作,所以总共需要k+1个操作。

    b. 如果我们可以在k个操作内将 s[1…i] 转换为 t[1…j-1] ,也就是说d[i,j-1]=k,那么我们就可以将 t[j] 加上s[1…i],这样总共就需要k+1个操作。

    c. 如果我们可以在k个步骤里面将 s[1…i-1] 转换为 t [1…j-1],那么我们就可以将s[i]转换为 t[j],使得满足s[1…i] == t[1…j],这样总共也需要k+1个操作。(这里加上cost,是因为如果s[i]刚好等于t[j],那么就不需要再做替换操作,即可满足,如果不等,则需要再做一次替换操作,那么就需要k+1次操作)

因为我们要取得最小操作的个数,所以我们最后还需要将这三种情况的操作个数进行比较,取最小值作为d[i,j]的值;然后重复执行4,5,6,最后的结果就在d[n,m]中;

拿刚才的例子图示:

image
image
image

Levenshtein距离优缺点分析

通过Levenshtein距离/文档长度这个比值评估是否相似。
Levenshtein距离优势很明显,简单快速。
缺点就是,字符串比较长的时候,占用空间比较大(N*M的数组),高并发时会吃掉很多内存。针对长一点的新闻,需要用其他方式。

SimHash

论文地址:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.473.7179&rep=rep1&type=pdf

SimHash广为人知,大概流程就是:

  1. 分词:根据语料库进行分词,对于英语,最好分成词组。例如这句话:
    Information technology is the use of computers to store, retrieve, transmit, and manipulate data. 最好就分成:“Information technology”, “is”, “the”, “use”, “of”, “computers”, “to”, “store”, “retrieve”, “transmit”, “and”, “manipulate”, “data”. 然后,需要你针对每个词按照你想侧重的规定权重,一般的可以取tfidf值为权重,或者出现次数。如果取出现次数为权重,最好去掉所有停止词,因为停止词出现频率还是很高的,将这个干扰去掉。假设分词结果为"Information technology"(5), “use”(1), “computers”(4), store"(1), “retrieve”(1), “transmit”(1), manipulate"(1), “data”(2).

  2. hash:通过hash函数计算各个特征向量的hash值,hash值为二进制数01组成的n-bit签名。比如"Information technology"的哈希值为1001001,"computers"哈希值为1010101。

  3. 加权:在hash值的基础上,给所有特征向量进行加权,即W = Hash * weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘,即1001001 —> 1 -1 -1 1 -1 -1 1 * 5 —> 5 -5 -5 5 -5 -5 5, 1010101 —> 1 -1 1 -1 1 -1 1 * 4 —> 4 -4 4 -4 4 -4 4

  4. 合并: 5 -5 -5 5 -5 -5 5 与 4 -4 4 -4 4 -4 4 按位相加,9 -9 -1 1 -1 -9 9

  5. 降维:如果大于0则置1,否则置0,从而得到该语句的simhash值:9 -9 -1 1 -1 -9 —> 1001001

image

得到两篇新闻的simhash之后,计算海明距离。一般的,对于64位simhash,距离小于等于3的即为相似。

simHash优缺点分析

非常省内存空间,只是计算哈希值和汉明距离;比较消耗CPU,相对于Levenshtein距离更费时。适用于比较长一点的文章,对于比较短的文章,差异过于敏感。网上一般说需要500词以上,对于我这边的英语新闻,一般在去掉停止词,词组划分之后100~200词以上的利用simHash并且距离为3的就比较准确了。

方案落地

我们初步考虑采用短文章Levenshtein距离 + 长文章SimHash海明距离来去重。

Levenshtein距离+SimHash海明距离共同的局限性分析

首先,Levenshtein距离和SimHash海明距离都是针对两个新闻进行对比是否相似。没办法直接判断,一篇文章是否在某一集合中存在与他相似的。也就是说,对于任何一篇文章,我们都要和目前库里面的每篇文章进行Levenshtein距离计算和SimHash海明距离计算。这样显然对于在线方案来说是不能接受的。

SimHash分块存储

针对新闻业务呢,每篇新闻有发布时间,可以只取一段时间内的新闻。但是随着频道的增多,总会达到一个不能接受的量级,必须得需要一个更细致区分的方案。

回顾一下SimHash海明距离方案:针对64位的simHash值,如果海明距离小于等于3,那么就可以认为相似。那么,对于一篇新闻A,如果库中有相似的新闻B,那么A的simHash值的64位里面至少有16位和B相同(海明距离是两个哈希值不同值位的个数,海明距离为3就是两个哈希值之间有三位不同,如果把64位平均分成4块每块16位,最坏的情况是这3位分布在不同的3块,还是至少有一块是完全一样的)。利用这个特性,我们可以这么存储新闻:

News:
    id,
    simhash(完整的simhash),
    simhash-A(simhash前16位),
    simhash-B(simhash17-32位),
    simhash-C(simhash33-48位),
    simhash-D(simhash49-64位),
    content(文章内容)

搜寻的时候,按照如下算法:

计算新闻simhash,设为sh, 前16位为sh-a,以此类推
如果存在simhash为sh的news:
    return 新闻相似
并行执行:
    1. 寻找simhash-A为sh-a的所有文章存入集合A
    2. 寻找simhash-B为sh-b的所有文章存入集合A
    3. 寻找simhash-C为sh-c的所有文章存入集合A
    4. 寻找simhash-D为sh-d的所有文章存入集合A
对于集合A中的每篇文章的simHash与sh计算海明距离

短文章补充冗余词

上面针对长文章的simhash方案搞定了,对于短文章还是得检索所有的(利用长度+时间检索)。

我们可以考虑,将短新闻补充冗余词,例如“test test test” 这样的,补充到长度为100~200以上,这样就可以用simHash判断是否可能有相似的文章,再把这些文章搜出来,利用content计算Levenshtein距离,这样也是通过上面simHash分块减少检索与计算量

其他未来可行的方案

我还查询了一些其他方式,例如

分层布隆过滤器论文地址:https://arxiv.org/pdf/1712.04544.pdf

github地址:https://github.com/ishnid/mrsh-hbft

image
利用分块思想,类似于ConcurrentHashMap的锁,将BloomFilter分布下去,BloomFilter本来是个空间换取时间的思想,这里用更多的空间来减少检索和计算。

如果未来有更成熟的实现,可能会考虑用,有精力我也想实现个,哈哈。

发布了194 篇原创文章 · 获赞 266 · 访问量 145万+

猜你喜欢

转载自blog.csdn.net/zhxdick/article/details/87920154
今日推荐