浅谈百度伪原创算法

　　搜索引擎众多算法中，有一个网页查重技术。首先，说说这个“重”，其实很简单，就是重复内容。我们在网上经常看到相同标题或者内容的文章，一些最新的新闻或者关注度比较高的文章，都会被众多的新闻媒体网站转载。这其实是对用户好的，可以尽量多的让用户看到这篇文章或新闻。不过搜索引擎就有点郁闷了，为何?抓取过来两篇甚至多篇内容相同的内容，就意味着搜索引擎要花费更多的时间去处理多次相同的文章内容。而在搜索引擎索引库中，可能就会索引两份相同的网页。这从系统的效率和检索的质量来看，都是非常不友好的。
　　那么怎么样处理以上问题呢?这就有网页查重技术的出现了。搜索引擎将内容和格式上的相同相似构成了四种网页相似类型，分别是：1、两个网页内容和格式上完全相同;2、两个网页的内容相同，格式不同;3、两个网页有部分重要内容相同并且格式相同;4、两个网页有部分重要内容相同，但格式不同。
　　这里有一个Shingle算法，简单点说，这个算法的意思就是：一个长度为L的文档，每隔N个汉字取一个Shingle(瓦片的意思)，这样一共截取了L-N+1个Shingle。两篇文章截取的Shingle相互对比，查看相同Shingle的个数，然后除以两个文档的Shingle总数再减去一致的Shingle数量。算出的结果叫做Jaccard系数，这个系数就是判断文章的相似度了。搜索引擎中相似度达到0.2就被判别为两篇文章相似。
　　判别文章相似度后，还有一个消重的操作，就是消除重复性的内容。如今搜索引擎消重的方式，是保留最早被搜索引擎蜘蛛爬取到的内容。
　　从上面这个搜索引擎算法里可以简单得到一些想法，就是伪原创的思路。就不细说了，而且搜索引擎的算法在不断的更新，如今更加的细腻，重复性的内容和低质量的内容很容易被搜索引擎检查出来。

浅谈百度伪原创算法

猜你喜欢