利用搜索引擎对重复内容的识别及漏洞做好伪原创的方法

作者: zenglihunter 分类: SEO优化 发布时间: 2011-07-16 23:11 ė11,415 Views 62条评论

光年VIP论坛淘的一篇研究搜索引擎对重复内容的识别方法以及利用此搜索引擎漏洞做好伪原创的方法。当然啦,最好是自己原创啦,毕竟自己写东西的时候也是对已有知识的温习及总结,有时候还能获得意想不到的灵感^^  

    互联网文章的相互复制,造成了互联网上存在大量的重复内容,这些重复内容,给搜索引擎带来了巨大的压力,搜索引擎在工作时,就需要对重复内容进行识别。那么搜索引擎是根据什么原理来进行重复内容的识别的呢?

  有的SEO在实践中提出,为了让搜索引擎收录自己的页面,可以修改标题和部分内容的文字,可以让搜索引擎收录页面;也有SEO认为搜索引擎还将页面的格式脚本也进行比较。

  事实上,搜索引擎识别重复内容的原理相当简单,并是不是有些SEO想象的那样拿文章的一段文字和另一篇文章去匹配,要是这样的话,搜索引擎的重复内容识别的效率就太低了。

  搜索引擎在识别重复内容之前,已经对页面内容进行了消噪和分词,消噪是指将页面的模板、广告等噪音过滤掉,留下文章的信号。在分词时,已经去掉了页面的脚本代码以及停止字。分词结束后,对每个分词出现的次数进行统计,取出现频率最高的三个或五个关键字,假设为A、B、C三个关键字,分别出现了10次、8次和5次,那么就形成A10B8C5这样一串字符,对此进行如MD5或其它形式的编码后形成一串数字,我们称这串数字为这篇文章的信息指纹,然后那这串信息指纹去数据库中检索,如果已经存在的话,则可以认为这个页面是重复内容。

  当然,仅仅采用这样一种方式进行重复内容的识别,存在很大的漏洞,比如有人将核心关键字修改一下,或者人为增加或减少核心关键字来进行欺骗。

  因此,搜索引擎还需要对这个算法加以修正,如再检索词频为第六到第九的关键字,甚至分段进行多次识别。

  任何算法都只是基于统计意义的,这样的算法也存在很大的漏洞。

  漏洞1:将文章的关键字进行了批量替换后,如果仅仅取钱三个关键字的信息指纹进行比对的话,就认为是新内容了,而事实上文章的核心思想是一样的;

  漏洞2:将多个文章的标题+摘要列出,形成一个文章列表,如果不对文章进行分段识别的话,也会认为这是新内容;

  漏洞3:论坛里的文章,由于大量的跟贴者,相当于对原文章进行了补充,随着跟贴者的增加,这个页面也会被认为是新内容;

  漏洞4:对文章的标题进行修改,并对文章加入一些评论或其它的文字,使页面跳出重复页面;

  漏洞5:以句子为单位制作SPAM,网上随机抽取句子,制造出段落,并合并成页面。

  这些漏洞,往往被一些不良SEOer所利用,用来疯狂制造出一些搜索引擎无法识别,人却可以识别的重复页面。

  在重复页面越来越多的今天,搜索引擎对消重的重视程度越来越高,百度自不用说,Google之前推出的类似网页功能,就是消重的一个措施。尽管,google目前对重复页面还没有采取很强硬的对策,但要让重复页面出现在google的排名前列要花的精力自然要比原创页面大的多。

  一般而言,文章段落的重排对于重复页面的识别影响不大,但对于核心关键字的改变,则往往使搜索引擎认为是新内容。

❤再看看呗❤

产品图片该不该加Nofollow?Nofollow掉后会不会收录? 自己一直对图片加上Nofollow属性,是否会影响图片的收录一直存在疑惑,今天仔细的分析了下得出的结论是:Nofollow掉的图片是不会被收录的。具体点是,点击A图片进入B图片(放大的A图片),此时若A图片加了nofollow属性,即nofollow掉了链向B图片的a标签,B图片是不会被抓取,也就不...
Everything:小巧快速的文件搜索软件,免费下载及使用技巧 Everything介绍 Everything是一款非常优秀的文件搜索工具,其大小仅有258.8KB ,非常的小巧。最令人称奇的是对文件的搜索(索引)速度非常的快,几秒钟就可以从硬盘中搜索到你要找的文件。完全可以秒杀百度和谷歌的硬盘搜索,并且索引文件几乎不占什么空间,不像百度和谷歌的硬盘搜索,动不...
【关键词类型】按搜索目的分为:导航、交易、信息3种类型关键词... 人们在使用搜索引擎寻找信息时,必然是带有目的性的,因此关键词可以根据用户搜索目的的不同分为三种类型:导航型关键词、交易型关键词和信息型关键词。 导航型关键词: 导航型关键词是指,用户明确的知道自己所要访问的网站,但是并不记得网址或者懒得输入网址,因此直接在搜索中输入网站名称、域名、品牌词等。这类...
搜索引擎蜘蛛爬取统计程序CrawlTrack安装教程及功能使用说明... CrawlTrack是一款php开源的网站统计程序,跟其他网站统计工具比起来,CrawlTrack的特色是可以统计搜索引擎蜘蛛对网站页面的爬去情况,并给出直观的图表展示。CrawlTrack用来做网站的实时的蜘蛛统计工具是再适合不过了。 CrawlTrack支持多国语言但,很可惜不支持中文。但...

本文出自 幽游网,转载时请注明出处及相应链接。

本文永久链接: http://www.yuyuhunter.com/post/rewrite.html

2条评论

  1. kk 2011-07-19 3:58 上午 回复

    光年论坛就经常去,有光年vip论坛?

    1. 人本幽游 2011-07-19 2:02 下午 回复

      参加光年培训的就可以进vip论坛,不过里面的帖子不多……

发表评论

电子邮件地址不会被公开。 必填项已用*标注

必须启用javascript才能看到验证图案!
Ɣ回顶部