搜索引擎识别伪原创算法分析

  第一、搜索引擎会过滤“的,了,呢,啊”

  这类的词重复率非常之高而且对排名是毫无帮助的无用词语。

  第二、有时候转换近义词是无效的

  市场上有一堆伪原创工具能够将词语伪原创比如将“电脑”伪原创为“计算机”,那么有什么理由不相信强大的搜索引擎不会伪原创?所以肯定的,搜索引擎一定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,所以很多情况下的近义词伪原创不收录的原因。

  第三、有时候不仅近义词转换了并且打乱句子与段落依然无效

  当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。

第四、几篇文章段落重组后依然可能会被搜索引擎识别出

  首先既然百度能够生成指纹自然也能解码指纹,段落重组的文章不过是重要关键字的增加或者减少,这样比如有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出文章并且给予权重,如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。

  第五、但有些伪原创文章仍然可以被收录的很好

  上面对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。上面只是搜索引擎过滤重复文章的一些因素,并不是导致搜索引擎不收录的决定性因素。

  总结:搜索引擎会通过过滤常用词和近义词的一些方法来过滤掉一些简单的伪原创文章,要想让搜索引擎收录你的文章并不是简单的替换一些近义词、变换一下段落就可以的,即使你的文章被收录了,总有一天也会被搜索引擎删除。一篇真正的伪原创文章,要添加属于你自己的内容和看法,加进你的思想,才会使得别人的文章成为你自己的文章。

猜你喜欢

转载自free0007.iteye.com/blog/1747523