资 讯

网站建设、app开发、微信开发、网络营销知识汇聚

We provide professional and all-round information services to enterprises from all levels and angles

搜索引擎优化以及网页抓取原理
admin 2018-08-21

商用搜索引|擎的查询速度达到毫秒级,并且能够支持大规模用户的同时访问。
  影响速度的原因很多,例如分词的效果、  索引|库的效率、  分布查询的处理能力和查询缓存的命中率等,这些将在第3章和第4章中详细介绍。
  1.2.2全
  上海搜索优化公司在传统信息检索( Information retrieval )中,将查全率( Recall)作为衡量检索是否全面的度量指标(查全率也称作召回率),查全率是查询出的相关网页数和全部相关网页数的比率。例如在搜索|擎中查询"XML”  如果世界上包含"XML” 这个关键词的网页数为M而实际该搜索引擎检索出这M条中的N条网页,那么查全率为N/Mx100%。
  是否能查得全,主要取决于网页索引库的大小。如果网页库只包含了2条XML的查询结果,即便都检索出来了,查 全率也是极低的。可见,索引的网页数越多,越有助于提高查全率。
  1.2.3准
  在传统信息检索中,应用查准率( Precision )作为衡量检索是否准确的指标,查准率是检索出的相关文档数与检索出的文档总数的比率。例如在搜索|擎中查询"XML” ,在实际检索出的网页数N中,只有P个网页是与查询"XML” 相关( Relavant)的,那么查准率为P/Nx 100%。

  在搜索引|擎这种特殊的检索实践中, 查全率往往是不重要的。衡量的意义也不大,因为没有一个用户会把所有与查询相关的网页都浏览一遍。一般情况下,用户最为关注的仅仅为搜索结果中的前几条。而查准率在很大程度上决定了搜索的质量,在前10条搜索结果(搜索结果首页)中满足用户的查询目的,这是搜索|擎查准率的主要体现。
  是否能查得准,主要取决于网页排序。常见的有PageRank等排序方法,在第3章中将介绍这方面的内容,在第7章中也会做详细介绍。
1.2.4稳
  毫无疑问,搜索|擎必须是一一个能够长期并稳定地提供服务的系统,因此系统的稳定运行是很重要的需求。特别是商用搜索引擎,其稳定性被提高到了相当的高度。在任何情况下可以牺牲检索质量和检索速度,但必须能够提供持续的信息检索服务。
  对于搜索引|擎来说,查询来自四面八方,查询词也千差万别 ,同时进行的查询量也非常巨大。稳定地满足这些查询需要,需要在系统的结构上做出权衡,在文件存储方式、查询系统和索|系统设计等方由于搜索擎处理数百亿的网页信息,同时每天接受来自数十亿用户的搜索请求,搜索引|擎的高能耗,已成为众矢之的。  哈佛大学物理学者魏斯纳一葛洛斯研究指出,如果以台式计算机在Google网站执行两次搜索,所制造的二氧化碳量相当于煮一壶茶。
  搜索引擎的耗费主要来自三个方面:电能,带宽,机器折旧。因此如果完成同样的工作尽可能用更少的机器,尽可能采用低能耗的机器,或者采用更低能耗的空调,这都可以大大节约能耗,在技术上,使用更少的机器是我们关注的话题,我们会在优化一章中做简要介从细节上看,网页从开始到最后都是网页。而在搜索引|擎的内部会有两种不同的形式,一种以网页库的方式存储;一种成为网页对象被存储在索库中。搜索弓|擎的主要数据来自网页,网页处理能力是搜索引|擎面对的主要挑战,下载系统和索引|系统分别会进行一些关于数据存储的相关知识的介绍。
  一个网页在万维网( WW)中诞生,然后被下载系统下载,进而被分析并索引入库,最后因为该网页包含的一个关键词被检索而进入用户( Client)的大脑。这样一个奇妙的旅行都经历了 哪些细节?各个系统内部如何工作?搜索|擎的全部画卷将在接下来的4章中按照这个顺序一展开。

现代搜索引擎的思路源于Wanderer,不少人改进了MatthewGrey的蜘蛛程序。  1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索程序中,创建了当时著名的搜索|擎Lycos ( htp://www.lycos.com/ )。其后无数的搜索引|擎促使爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果使得搜索引擎能够检索几乎全部的万维网网页,甚至被删除的网页也可以通过一个称之为“网页快照”的功能访问。
  前人的辉煌成就令人赞叹不已,那么爬虫是怎么实现这些功能的呢?为什么说它巧妙、合理且强大呢?让我们首先从爬虫开始入手,深入理解搜索|擎的下载系统。

 网站排名优化如果要把该网页文件下载到本地硬盘,对于Linux操作系统的用户,只需要输入命令:
  wget wWW. nju. edu. cn/ index. html
  之后使用v就可以打开该文件。Windows操作系统的用户可以下载一个wget程序,使用同样方法下载网页。
  由此看来,下载一个网页如此简单,如果要下载整个万维网,那么应当采用什么样的遍历规则呢?
  2.4.2从种子站点开始逐层抓取
  基于万维网的蝴蝶结型结构,这种非线性的网页组织结构,就出现了抓取“顺序”的问题,即哪些先抓、哪些后抓。这种解决抓取“顺序”的策略必须保证尽可能抓取所有网页(本章不区分抓取网页和下载网页的区别)。
  一般来说,爬虫选择蝴蝶结左部的网页。即目录型网页作为种子站点(抓取出发点),典型的如sina com和sohu.com这样的i ]户网站的主页。每完成一次抓取网页之后提取其中的链接(提取的方法需要一-些HTML语法分析  以及区分绝对路径和相对路径的技巧等),这些字符串形式的链接是指向其他网页的URL,它们指引爬虫更加深入地抓取其他网页。一个网页常常包含多个链接,因此在提取网页的链接后,如何继续抓取其他网页,爬虫有如下两种选择处理抓取的”顺序”问题。在继承优先顺序上,长子>长孙>长孙的其他兄弟>次子>次子的其他兄弟。这种首先选择某个分支,继而深入到不能深入的情况下才考虑其他分支的策略即为深度优先策略。
  ( 2 )宽度优先策略( Breadth-First Traversal )。
  宽度优先也称为“广 度优先”,或"层次优先”,它是一种层次型距离不断增大的遍历方式,类似长幼有序的规则。在晚辈给长辈献茶时,总是先献长辈,然后次之,如图2-3所示 在图2-3中,祖先的优先级最高,第2层的优先级大于第3层,每层的内部优先级以年长者优先。因此这里次子的优先级大于长孙的优先级,这就是宽度优先策略。
  在抓取的顺序策略上选择宽度优先出于如下3点原因。
  首先,重要的网页往往离种子站点的距离较近,这符合直觉。我们通常在打开某些新闻网站时,进入眼帘的往往是最重要的新闻。随着不断地冲浪(可以理解为深度不断加深) ,所看到的网页的重要性越来越低,甚至偶尔会出现无法访问的情况。
  其次,万维网的深度没有我们想象得那么深,到达某一个网页的路径通常很多,总会存在一条很短的路径到达。 有研究表明,中文万维网直径的长度只有17。
  最后,宽度优先规则有利于多爬虫合作抓取(这种合作策略在后面还会提到)。这是因为该规则开始抓取的网页通常都是站内网页,逐渐才会遇到站外链接,因此抓取的封闭性较强。
  搜索排名优化进行宽度优先遍历时,必须要有一个队列( queue )数据结构支持。这个队列理解为其工作负载队列,只要其中存在没有完成的抓取任务,就需要提取队头位置的网页继续抓取。直到完成全部抓取任务,工作负载队列为空为止。详细的抓取的过程如图2-4所示。

  • 上一篇:电商搜索引擎优化怎么做
  • 下一篇:网站优化中SEO优化的重要性和差异性
  • © 2011-2020 www.keyrey.com 上海科睿网络科技有限公司 © 版权所有 沪ICP备12032097号-1
    友情链接 : 上海app开发 app开发公司 app制作 手机软件开发 手机软件开发公司 小程序开发 上海网站制作公司
    QQ在线咨询

    上海app开发QQ在线咨询 上海app开发QQ在线咨询
    电话咨询
    400-877-9280 app开发公司电话咨询
    即时在线咨询 手机软件开发即时在线咨询
    微信扫一扫
    添加app制作微信 上海网站制作公司微信
    科睿网络-互联网开发营销专家

    凡事有交代 件件有着落 事事有回应

    立即获取为您量身定制的开发营销方案

    咨询热线 400-877-9280