大数据级新闻去重实现 - 1.在线实时方案

最近针对爬虫爬下来的新闻进行去重。这个去重要考虑很多方面：

不同网站发布的要点新闻，基本上是有通稿的，内容大同小异，基本一致，有些细节不同，需要去掉重复的，保留质量最好的。
去重对比的时间跨度是多大呢？可能刚开始我们会考虑搜索整个库，每篇文章都对比，但是这样会效率太差了，没有必要。新闻有发布时间，以新闻发布时间前后一周为时间段，对比这个时间段内的新闻即可。
发布的新闻可能有很类似的，例如一个新闻是另外一个新闻的简述版，需要去掉简述版的。
有些同样事件的新闻编辑不一样，写的文字不一样但是讲的是同一件事，这个也最好剔除掉（这种的新闻可能比较少，资讯比较多）

对于前两点需求，基本上在线去重就可以解决。后两种需求，需要更仔细严谨的分析算法（例如建立初始语料库训练word2vec进行进一步主成分分析等等），一般是离线方式实现。这个在之后会详细讲解。

本方案将基于在线和离线两种实现方式。先说说在线方式，基于的技术主要是：Levenshtein距离（编辑距离）和SimHash算法。

Levenshtein距离

莱文斯坦距离，又称Levenshtein距离，是编辑距离的一种。指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如将whale转成whatif：

whate （l→t）
whati （e→i）
whatif （+f）

距离为3

Levenshtein距离算法比较简单并且在字符串比较小的时候比较高效，算法基本思路是：

假设m为词1的字符长度，n为词2的字符长度：

构造行数为m+1 列数为 n+1 的矩阵 , 用来保存完成某个转换需要执行的操作的次数，将串s[1…n] 转换到串t[1…m] 所需要执行的操作次数为matrix[n][m]的值；
初始化matrix第一行为0到n，第一列为0到m。
Matrix[0][j]表示第1行第j-1列的值，这个值表示将串s[1…0]转换为t[1…j]所需要执行的操作的次数，很显然将一个空串转换为一个长度为j的串，只需要j次的add操作，所以matrix[0][j]的值应该是j，其他值以此类推。
检查每个从1到n的s[i]字符；
检查每个从1到m的s[i]字符；
将串s和串t的每一个字符进行两两比较，如果相等，则让cost为0，如果不等，则让cost为1（这个cost后面会用到）;

a. 如果我们可以在k个操作里面将s[1…i-1]转换为t[1…j]，那么我们就可以将s[i]移除，然后再做这k个操作，所以总共需要k+1个操作。

b. 如果我们可以在k个操作内将 s[1…i] 转换为 t[1…j-1] ，也就是说d[i,j-1]=k，那么我们就可以将 t[j] 加上s[1…i]，这样总共就需要k+1个操作。

c. 如果我们可以在k个步骤里面将 s[1…i-1] 转换为 t [1…j-1]，那么我们就可以将s[i]转换为 t[j]，使得满足s[1…i] == t[1…j]，这样总共也需要k+1个操作。（这里加上cost，是因为如果s[i]刚好等于t[j]，那么就不需要再做替换操作，即可满足，如果不等，则需要再做一次替换操作，那么就需要k+1次操作）

因为我们要取得最小操作的个数，所以我们最后还需要将这三种情况的操作个数进行比较，取最小值作为d[i,j]的值；然后重复执行4,5,6，最后的结果就在d[n,m]中；

拿刚才的例子图示：

Levenshtein距离优缺点分析

通过Levenshtein距离/文档长度这个比值评估是否相似。
Levenshtein距离优势很明显，简单快速。
缺点就是，字符串比较长的时候，占用空间比较大（N*M的数组），高并发时会吃掉很多内存。针对长一点的新闻，需要用其他方式。

SimHash

论文地址：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.473.7179&rep=rep1&type=pdf

SimHash广为人知，大概流程就是：

分词：根据语料库进行分词，对于英语，最好分成词组。例如这句话：
Information technology is the use of computers to store, retrieve, transmit, and manipulate data. 最好就分成：“Information technology”, “is”, “the”, “use”, “of”, “computers”, “to”, “store”, “retrieve”, “transmit”, “and”, “manipulate”, “data”. 然后，需要你针对每个词按照你想侧重的规定权重，一般的可以取tfidf值为权重，或者出现次数。如果取出现次数为权重，最好去掉所有停止词，因为停止词出现频率还是很高的，将这个干扰去掉。假设分词结果为"Information technology"(5), “use”(1), “computers”(4), store"(1), “retrieve”(1), “transmit”(1), manipulate"(1), “data”(2).
hash：通过hash函数计算各个特征向量的hash值，hash值为二进制数01组成的n-bit签名。比如"Information technology"的哈希值为1001001，"computers"哈希值为1010101。
加权：在hash值的基础上，给所有特征向量进行加权，即W = Hash * weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘，即1001001 —> 1 -1 -1 1 -1 -1 1 * 5 —> 5 -5 -5 5 -5 -5 5， 1010101 —> 1 -1 1 -1 1 -1 1 * 4 —> 4 -4 4 -4 4 -4 4
合并： 5 -5 -5 5 -5 -5 5 与 4 -4 4 -4 4 -4 4 按位相加，9 -9 -1 1 -1 -9 9
降维：如果大于0则置1，否则置0，从而得到该语句的simhash值：9 -9 -1 1 -1 -9 —> 1001001

得到两篇新闻的simhash之后，计算海明距离。一般的，对于64位simhash，距离小于等于3的即为相似。

simHash优缺点分析

非常省内存空间，只是计算哈希值和汉明距离；比较消耗CPU，相对于Levenshtein距离更费时。适用于比较长一点的文章，对于比较短的文章，差异过于敏感。网上一般说需要500词以上，对于我这边的英语新闻，一般在去掉停止词，词组划分之后100~200词以上的利用simHash并且距离为3的就比较准确了。

方案落地

我们初步考虑采用短文章Levenshtein距离 + 长文章SimHash海明距离来去重。

Levenshtein距离+SimHash海明距离共同的局限性分析

首先，Levenshtein距离和SimHash海明距离都是针对两个新闻进行对比是否相似。没办法直接判断，一篇文章是否在某一集合中存在与他相似的。也就是说，对于任何一篇文章，我们都要和目前库里面的每篇文章进行Levenshtein距离计算和SimHash海明距离计算。这样显然对于在线方案来说是不能接受的。

SimHash分块存储

针对新闻业务呢，每篇新闻有发布时间，可以只取一段时间内的新闻。但是随着频道的增多，总会达到一个不能接受的量级，必须得需要一个更细致区分的方案。

回顾一下SimHash海明距离方案：针对64位的simHash值，如果海明距离小于等于3，那么就可以认为相似。那么，对于一篇新闻A，如果库中有相似的新闻B，那么A的simHash值的64位里面至少有16位和B相同（海明距离是两个哈希值不同值位的个数，海明距离为3就是两个哈希值之间有三位不同，如果把64位平均分成4块每块16位，最坏的情况是这3位分布在不同的3块，还是至少有一块是完全一样的）。利用这个特性，我们可以这么存储新闻：

News:
    id,
    simhash(完整的simhash),
    simhash-A(simhash前16位),
    simhash-B(simhash17-32位),
    simhash-C(simhash33-48位),
    simhash-D(simhash49-64位),
    content(文章内容)

搜寻的时候，按照如下算法：

计算新闻simhash，设为sh， 前16位为sh-a，以此类推
如果存在simhash为sh的news：
    return 新闻相似
并行执行：
    1. 寻找simhash-A为sh-a的所有文章存入集合A
    2. 寻找simhash-B为sh-b的所有文章存入集合A
    3. 寻找simhash-C为sh-c的所有文章存入集合A
    4. 寻找simhash-D为sh-d的所有文章存入集合A
对于集合A中的每篇文章的simHash与sh计算海明距离