欢迎访问360建站网,网站模板、网页模板免下载即可快速网站建设!

360建站网广告位 360建站网广告位 360建站网广告位
当前位置: 主页 > 网站知识 > 网站优化 > 爬虫质量的评价标准:哪些百度蜘蛛是高质量蜘蛛?

爬虫质量的评价标准:哪些百度蜘蛛是高质量蜘蛛?

发布时间:2020-12-28 14:54:41
  1、爬虫质量的点评标准
 
  假如从搜索引擎用户体验的角度考虑,对爬虫的工作效果有不同的点评标准,其中最首要的 3 个标准是:抓取网页的覆盖率、抓取网页时新性及抓取网页重要性。假如这 3 方面做得好,则搜索引擎用户体验必定好。
 
  关于现有的搜索引擎来说,还不存在哪个搜索引擎有能力将互联网上出现的一切网页都下载并建立索引,一切搜索引擎只能索引互联网的一部分。而所谓的抓取覆盖率指的是爬虫抓取网页的数量占互联网一切网页数量的份额,覆盖率越高,等价于搜索引擎的召回率越高,用户体验越好。
爬虫质量的评价标准:哪些百度蜘蛛是高质量蜘蛛?
  2、索引网页和互联网网页比照
 
  抓取到本地的网页,很有可能现已发生变化,或许被删去,或许内容被更改,因为爬虫抓取完一轮需要较长的时刻周期,所以抓取到的网页当中必定会有一部分是过期的数据,即不能在网页变化后第一时刻反应到网页库中。所以网页库中过期的数据越少,则网页的时新性越好,这对用户体验的改进大有裨益。
 
  假如时新性欠好,搜索到的都是过期数据,或许网页被删去,用户的内心感触可想而知。
 
  互联网尽管网页繁多,但是每个网页的差异性都很大,比如来自腾讯、网易新闻的网页和某个作弊网页比较,其重要性犹如天壤之别。假如搜索引擎抓取到的网页大部分是比较重要的网页,则能够阐明在抓取网页重要性方面做得比较好。这方面做的越好,则越阐明搜索引擎的搜索精度越高。
 
  通过以上 3 个标准的阐明分析,能够将爬虫研制的目标简略描述如下:在资源有限的情况下,已然搜索引擎只能抓取互联网现存网页的一部分,那么就尽可能给挑选比较重要的那部分页面来索引;关于现已抓取到的网页,尽可能快的更新内容,使得索引网页和互联网对应页面内容同步更新;在此基础上,尽可能扩大抓取范围,抓取到更多曾经无法发现的网页。
爬虫质量的评价标准:哪些百度蜘蛛是高质量蜘蛛?
  3 个“尽可能”根本说清楚了爬虫系统为增强用户体验而斗争的目标。
 
  大型商业搜索引擎为了满足 3 个质量标准,大都开发了多套针对性很强的爬虫系统。以Google为例,至少包括两套不同的爬虫系统:一套被称为Fresh Bot,首要考虑网页的时新性,关于内容更新频频的网页,目前能够达到以秒计的更新周期;另外一套被称之为Deep Crawl Bot,首要针对更新不是那么频频的网页抓取,以天为更新周期。
 
  除此之外,Google投入了很大精力研制针对暗网的抓取系统。

猜你喜欢

热门模板