搜索引擎是如何判定复制网页内容 专业技术解密

2010-08-28 zhangli 0 0 阅读需要2-5分钟

  今天章力从SEO的角度来简单谈谈搜索引擎是如何判定复制网页的,如果想更深入地了解这一基本原理,可以参考《搜索引擎——原理、技术与系统》(李晓明等著)和 《搜索引擎原理、实践与应用》(卢亮、张博文编著)这两本书。

  首先,搜索引擎对所索引的所有网页进行页面净化和内部消重

  任何一家搜索引擎在尚未进行复制网页判断这一操作之前都定然会有个网页净化和内部消重的过程。搜索引擎首先要清除噪音内容,对网页内部的广告、版权信息、共同的页眉页脚部分等进行净化,然后提取出该页面的主题以及和主题相关的内容,用以排名工作,噪音内容是不计入排名权重之中的。消重也差不多是这个意思,搜索引擎对其所收集的网页集里面主题相同或极端相似的,比如同一模板之中多次出现的共同代码,将其作为冗余内容,进行消除。

  我们可以这样理解,最理想的状态之下,一篇原创文章,搜索引擎仅将标题和内容计入排名之中,其他全部都消除。

  DocView模型就是一个自动分类和消重的模型,当然,不是非常准确。大家可以简单了解一下,DocView模型包括网页表识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素,它通过提取DocView模型要素的方法应用在网页自动分类和网页消重之中。

  通过了解以上内容,我们就能大致明白,同一篇文章,为什么放到两个完全不同模板的站点之上,搜索引擎仍然能够正确识别出这是一个复制页面的原因了吧。

  其次,搜索引擎对净化的页面进行重复内容的判断

  那么搜索引擎具体是如何判断复制页面的呢?以下内容是北大天网搜索引擎的去重算法,大部分来自对《搜索引擎——原理、技术与系统》相关知识的整理,大家可以自行参考相关文档。

  现有方法大致可以分为以下三类:

  1、利用内容计算相似

  2、结合内容和链接关系计算相似

  3、结合内容,链接关系以及url文字进行相似计算

  现有绝大部分方法还是利用文本内容进行相似识别,其它两种利用链接关系以及URL文字的方法还不是很成熟,而且从效果看引入其它特征收效并不明显,所以从实际出发还是选择利用内容进行相似计算的算法。

  搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(信息指纹,英文是Fingerprint,就是把网页里面正文信息,提取一定的信息,可以是关键字、词、句子或者段落及其在网页里面的权重等,对它进行加密,如MD5加密,从而形成的一个字符串。信息指纹如同人的指纹,只要内容不相同,信息指纹就不一样。搜索引擎在对爬取的网页建立索引的时候需要对重复内容的网页进行识别和消重,这就要用到信息指纹),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。注意一点,算法提取的信息不是针对整张网页,而是把网站里面共同的部分如导航条、logo、版权等这些网页的噪音信息过滤掉后剩下的文本。

  很多搜索引擎判断内容复制的方法都不太一样,主要是以下两点的不同:

  1、计算信息指纹的算法;

  2、判断信息指纹的相似程度的参数。

  部分算法简介:

  1、分段签名算法

  这种算法是按照一定的规则把网页切成N段,对每一段进行签名,形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时(m是系统定义的阙值),则认为两者是复制网页。这种算法对于小规模的判断复制网页是很好的一种算法,但是对于像Google这样海量的搜索引擎来说,算法的复杂度相当高。

  2、基于关键词的复制网页算法

  像Google这类搜索引擎,他在抓取网页的时候都会记下网页中出现的关键词(中文分词技术)以及每个关键词的权重(关键词密度)以及提取meta descrīption或者每个网页的512个字节的有效文字。

  假设我们约定Pi表示第i个网页;该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn},其对应的权重为Wi= {w1,w2,...wi},摘要信息用Des(Pi)表示,前n个关键词拼成的字符串用Con(Ti)表示,对这n个关键词排序后形成的字符串用 Sort(Ti)表示。

  以上信息指纹都用MD5函数进行加密。

  基于关键词的复制网页算法有以下5种:

  1、MD5(Des(Pi))=MD5(Des(Pj)),就是说摘要信息完全一样,i和j两个网页就认为是复制网页;

  2、MD5(Con(Ti))=MD5(Con(Tj)),两个网页前n个关键词及其权重的排序一样,就认为是复制网页;

  3、MD5(Sort(Ti))=MD5(Sort(Tj)),两个网页前n个关键词一样,权重可以不一样,也认为是复制网页。

  4、MD5(Con(Ti))=MD5(Con(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。

  5、MD5(Sort(Ti))=MD5(Sort(Tj))并且Wi-Wj的平方除以Wi和Wj的平方之和小于某个阙值a,则认为两者是复制网页。

  关于第4和第5的那个阙值a,主要是因为前一个判断条件下,还是会有很多网页被误伤,搜索引擎开发根据权重的分布比例进行调节,防止误伤。

  以上5种算法运行的时候,算法的效果取决于N,就是关键词数目的选取。选的数量越多,判断就会越精确,但是计算速度也会越慢。所以必须考虑一个计算速度和去重准确率的平衡,根据试验结果,10个左右关键词最为恰当。

  当然,以上算法只是给SEO一个思路而已,并非搜索引擎判断复制网页的全部算法。只要在SEO的过程中注意原创和“伪原创”,大可不必太在乎这个算法。

相关标签

相关文章

无相关信息
  • 网站文章阅读时长JS代码

    <div class="T-time">您阅读这篇文章共花了:<span class="T-time" id="stime"></span></div><script language="JavaScript">var ss=0,mm=0,hh=0;function TimeGo(){ss++;if

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • Google搜索Your page is not mobile-friendly问题分析和解决方案

    Your page is not mobile-friendly。  个人的行业门户网站美容仪之家在百度里面site:www.imeirongyi.com后,google的搜索结果提示如下图所示,所有页面搜索结果页面下面都有

  • 百度和360搜索引擎智能摘要

      现在的搜索引擎在搜索后会有各种形式的信息展现方式,如下图,而要获得这些智能 的摘要方式,自然需要提交不同的文件,目前百度和360已经开放了,今天我们就要介绍下这个智能摘要

  • 火车头采集器标签内容替换功能

    火车头常规的有一个内容替换功能,就是设定好一个个要替换和被替换的词,程序会帮你去替换,但是其实还有更高级的标签替换功能:

  • 火车头采集器7.6版本自动退出的解决方法

    解决火车头采集器7.6版本自动退出的解决方法,核心原因是它有一个自动连接远程服务器校验的功能,所以当它无法叫研究会自动关闭。

  • SEO工具之firefox优化SEO插件

    章力下面介绍一些firefox优化SEO插件,firefox不但是做网站的好工具,也是做优化的好工具,它跟WordPress一样,拥有非常丰富的插件与扩展,只要你能想到的功能,就有人能够帮你实现。

  • REL NOFOLLOW标签用法和含义

    什么是rel nofollow标签呢?如何使用rel nofollow标签?Google发现超链接中含有该属性(“rel=nofollow”),这类链接不会被作为某站点在搜索结果排名中的评价依据

  • 百度排名优化关键字优化方案

      最近看了一些大型网站的优化技术,研究了一下,发现确实厉害所有关键字都是百度第2(百度自家产品有啊第1),非常稳定,,所以也想实战一下他们的优化方案的效果如何,是否能使用在中

  • 如何博客养站 打造高质量博客外链

      博客养站是广大SEOer中较为常用且投入低廉的一种操作手段,博客养站的原理也很简单,就是利用博客给网站输送高质量且稳定的外链和锚文本链接,以期达到影响搜索引擎排名的效

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • 网站URL优化技巧域名、结构、相关性

      网站URL的优化也是网站优化中的一部分,网站优化就是要掌握和优化好网站的每个细节,这样才能最后获得最好的优化结果。但是想在很多朋友在优化中 都忽视了这一点URL的优化,

  • 如何提高网站权重的要素

      网站权重是什么呢,我们又该如何提高网站权重,它的要素又在那里呢?  章力认为提高网站权重大小其实多数时候都是可以人为控制的,侧重点在于页面的链接!针对与一个网站来说

  • 如何做好网站反向链接技巧和注意事项

      反向链接,对于做seo的人来说做是在网站推广时经常谈的一个话题,好的反向链接可以让你的网站有很好的排名,同时可以改变很多东西。章力对网站排名研究的比较多,趁着这个机会,

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • 百度关键字排名周期时间预估

      关键词分为冷门关键词、一般关键词、一般偏热门关键词和热门关键词、超级热门。关键词竞争度越大排名到首页的时间越长,关键词的竞争度不仅仅是指关键词的搜索指数,还包含

  • google pr2011年最后一次更新了

      今天无意间网站论坛里逛逛,说PR有更新了,刚才去检查友情链接的时候工具里也顺便看了下PR,确实真的更新了,基本所有网站都提高了一个等级,我的seo博客升到了PR2了,百度优化站P

  • 网站SEO关键词挖掘思路

      网站核心关键词的选择不能想当然,必须经过关键词研究才能确保这个关键词确实有用户在搜索,没人搜索没有任何价值,对SEO没概念的人在确定目标关键字时常常会首先以公司名称

  • “Seoer”的成长,实践加快成长的脚步

      一个新人,一个刚刚踏足SEO界的初学者,学习着从未接触过的搜索引擎优化及关于优化方面的理论知识,中间夹杂着一些简单的操作,这就是我在优化界的起步,也许我还不能算式一个真

  • wordpress监控搜索引擎蜘蛛代码

    今天在某个博客上看到一个方法,通过在wordpress上面添加一段代码就可以监控各大搜索引擎蜘蛛的爬行痕迹,对于做网站优化的人来说这个是非常实用。

  • 大型网站SEO如何快速增加关键词数量

      当我们把网站做大后,10万起步的内容(当然内chrome://newtab/容是最好有关联性的时候),如何快速的增加关键字数量呢?大张力想到的自然是内容的相互调用,充分2次,3次的利用内

TOP