simhash实现文本去重原理与工程化实现

网上有很多写的很好的了,我就不重复造轮子了,摘录几篇讲的透彻的,忘记了再捡起来看看。

simhash的java实现(包含汉明距离计算):

http://jacoxu.com/simhash%E6%98%AF%E5%90%A6%E9%80%82%E5%90%88%E7%9F%AD%E6%96%87%E6%9C%AC%E7%9A%84%E7%9B%B8%E4%BC%BC%E6%96%87%E6%9C%AC%E5%8C%B9%E9%85%8D/

simhash分段快速计算汉明距离的原理:

http://www.lanceyan.com/tag/simhash

simhash网页去重原理分析(比较通俗易懂,他的参考文献质量不错):

https://blog.csdn.net/sunny_ss12/article/details/46958155

高效计算二进制序列中1的个数:

https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html

这篇用了官方ppt来讲,很清楚了:

http://grunt1223.iteye.com/blog/964564

simhash去重工程化落地的问题,值得好好体会:

https://yuerblog.cc/2018/05/30/simhash-text-unique-arch/

猜你喜欢

转载自blog.csdn.net/hongxingabc/article/details/81780527