搜索引擎蜘蛛Spider的分类

2017-10-14 zhangli 0 0 阅读需要2-5分钟

  搜索引擎Spider的分类,按照现在网络上所有Spider的作用,其表现出来的特征,可以将其分为三类。批量性Spider,增量性Spider和垂直性Spider。

  批量性Spider

  一般具有明显的抓取范围和目标,设置抓取时间的限制,抓取数据量的限制,只抓取固定范围内页面的限制等的。当Spider的作业达到预先设置的目标就会停止。站长和SEO人员使用的采集工具和程序。所派出的Spider大多属于批量型Spider,一般只抓取固定网站的固定内容。或者设置对某一些资源的固定目标,数据量,当抓取的数据,或者时间到达设置限制之后就为自动停止,这种Spider就是很典型的力量批量型Spider

  增量型Spider

  增量性Spider也可以称之为通用爬虫,一般可以称为搜索引擎的网站和程序,使用的都是真增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎一般不需要Spider的,增量型Spider没有固定目标范围和时间限制,一般会无休止地抓取下去,直到把全网的数据都抓取完为止,增量型Spider抓取尽可能全的页面,还要对已经抓取的页面进行相应的再次抓取和更新,因为整个互联网是在不断的变化。单个网页上的内容,可能会随着时间的变化而不断的更新,甚至在一定时间之后,该网页会被删除,优秀的增量型Spider需要及时发现这种变化并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度谷歌网页搜索等全文,搜索引擎的发展,一般都是增量性Spider。

  垂直性Spider

  垂直性Spider也可以称之为聚焦爬虫。特定主题、特定内容和特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider,不像增量型的Spider一样追求大而广的覆盖面。而是在增量型Spider上增加1个抓取网页的限制,根据需求,抓取含有目标内容的网页。不符合要求的网页会直接被放弃抓取。对于网页级纯文本内容方面的识别。现在搜索引擎Spider还不能百分之百的进行精确分类,并且垂直型Spider也不能像增亮型Spider那样进行全互联网查询,因为那样太浪费资源,所以现在垂直搜索引擎如果有附属增量Spider就会利用,增量型发展进行站点为单位进行内容分类,然后再派出垂直型Spider抓取和自己内容要求的站点。没有增量Spider作为基础的垂直搜索引擎,一般采用人工添加,抓取站点的方式来引导垂直性的作业,当然在同一个站点内也会存在不同的内容。此时,垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多,现在一淘网现现在使用Spider对网页的识别度已经很高,但是总会有一些不足,这也是垂直类搜索引擎上的SEO有了很大的空间。

相关标签

  • 网站文章阅读时长JS代码

    <div class="T-time">您阅读这篇文章共花了:<span class="T-time" id="stime"></span></div><script language="JavaScript">var ss=0,mm=0,hh=0;function TimeGo(){ss++;if

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • Google搜索Your page is not mobile-friendly问题分析和解决方案

    Your page is not mobile-friendly。  个人的行业门户网站美容仪之家在百度里面site:www.imeirongyi.com后,google的搜索结果提示如下图所示,所有页面搜索结果页面下面都有

  • 百度和360搜索引擎智能摘要

      现在的搜索引擎在搜索后会有各种形式的信息展现方式,如下图,而要获得这些智能 的摘要方式,自然需要提交不同的文件,目前百度和360已经开放了,今天我们就要介绍下这个智能摘要

  • 火车头采集器标签内容替换功能

    火车头常规的有一个内容替换功能,就是设定好一个个要替换和被替换的词,程序会帮你去替换,但是其实还有更高级的标签替换功能:

  • 火车头采集器7.6版本自动退出的解决方法

    解决火车头采集器7.6版本自动退出的解决方法,核心原因是它有一个自动连接远程服务器校验的功能,所以当它无法叫研究会自动关闭。

  • SEO工具之firefox优化SEO插件

    章力下面介绍一些firefox优化SEO插件,firefox不但是做网站的好工具,也是做优化的好工具,它跟WordPress一样,拥有非常丰富的插件与扩展,只要你能想到的功能,就有人能够帮你实现。

  • REL NOFOLLOW标签用法和含义

    什么是rel nofollow标签呢?如何使用rel nofollow标签?Google发现超链接中含有该属性(“rel=nofollow”),这类链接不会被作为某站点在搜索结果排名中的评价依据

  • 百度排名优化关键字优化方案

      最近看了一些大型网站的优化技术,研究了一下,发现确实厉害所有关键字都是百度第2(百度自家产品有啊第1),非常稳定,,所以也想实战一下他们的优化方案的效果如何,是否能使用在中

  • 如何博客养站 打造高质量博客外链

      博客养站是广大SEOer中较为常用且投入低廉的一种操作手段,博客养站的原理也很简单,就是利用博客给网站输送高质量且稳定的外链和锚文本链接,以期达到影响搜索引擎排名的效

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • 网站URL优化技巧域名、结构、相关性

      网站URL的优化也是网站优化中的一部分,网站优化就是要掌握和优化好网站的每个细节,这样才能最后获得最好的优化结果。但是想在很多朋友在优化中 都忽视了这一点URL的优化,

  • 如何提高网站权重的要素

      网站权重是什么呢,我们又该如何提高网站权重,它的要素又在那里呢?  章力认为提高网站权重大小其实多数时候都是可以人为控制的,侧重点在于页面的链接!针对与一个网站来说

  • 如何做好网站反向链接技巧和注意事项

      反向链接,对于做seo的人来说做是在网站推广时经常谈的一个话题,好的反向链接可以让你的网站有很好的排名,同时可以改变很多东西。章力对网站排名研究的比较多,趁着这个机会,

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • seo关键字研究和定位

    关键词研究是SEO工作中不可,缺少的重要环节。有不少网站拥有较多优质的内,资源,但确因关键词定位不准确,而不能获得精准流量有限战场总以为自己网站定位过于精细,没有太多的关键词可以优化,不知道,我如何扩展,关键的是,有些网站一种自己网站的高权重。

  • 移动搜索优化URL设置要求

    搜索引擎为了给用户良好的体验,在移动搜索中对网站有不同的要求,用户在手机上不能轻松浏览/使用的网站,搜索引擎不会在移动搜索中给与好的排名。移动搜索一般指的是手机搜索,而/PAD/平板电脑类设备同样被视为PC,因为尺寸和用户体验更靠近PC。

  • 搜索引擎网页去重原理算法

      在互联网如此发达的今天,同一资料会在多个网站发布,同意新人会被大部分媒体网站报道。再加上网站站长和SEO人员的网络采集,造成了网络上拥有大量重复的信息。然而当用户搜

  • 百度MIP和GOOGLE AMP移动网页加速工具

    今天去参加百度站长杭州线下会议有1大收获,第一个第一次听说了百度的移动移动网页加速器_MIP(Mobile Instant Pages),它其实就是参考GOOGLE AMP (accelerated mobile pages)的百度版本。

  • 火车头采集器7.6版本自动退出的解决方法

    解决火车头采集器7.6版本自动退出的解决方法,核心原因是它有一个自动连接远程服务器校验的功能,所以当它无法叫研究会自动关闭。

  • SEO优秀案例网站收集汇总

    http://www.yougelicom/http://www.jnesccom/ http://www.fadoushicom/ http://www.shenzhenzhucegongsicom/ 深圳注册公司https://www.qiyudccom/http://www.zimaoquzhuceg

TOP