资 讯

网站建设、app开发、微信开发、网络营销知识汇聚

We provide professional and all-round information services to enterprises from all levels and angles

搜索引擎关键技术在于哪些
admin 2018-08-04

 一般来说,上海搜索优化公司人工方式收集信息的准确性要远优于网络机器人”,但其收集信息的效率及全面性低于网络机器人1.4.2  信息预处理技术
  信息预处理要做的工作如下所述.

  1.关键调的提取
  为了支持后面的查询服务,需要从网页源文件中提取出能够代表其内容的一些特征.从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。
  2.重复或转载用页的消除
  Web.上的信息存在大量的重复现象,规模统计分析表明,网页的重复率平均大约为4。也就是说,当通过一个URL在网上看到一算网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容。消除内容重复或主题内容重复的网页是預处理阶段的一个重要任务。
  3.链接分析
  大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
  4.网页重要程度的计算
  顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的。如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是被引用多的就是重要的引用这个概念恰好可以通过HTML超链接在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现。这包括网页的内部链接和外部链接.
  1.4.3  信息索引技术
  信息索引就是创建文挡信息的特征记录,以便用户能够快速地检索到所需信息。建立索引主要涉及以下几个问题.
  L信息语惘切分和语调调法分析
  语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要利用各种上下文知识。语词调法分析是指识别出各个语词的词千,以便根据词干建立信息索引。
  2进行调性标注及相关的自然语言处理
  词性标往是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫键随机过程的元语法统计分析方法在闻性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。1.4  搜索引擎的关键技求
  通常搜索引擎由几个环节构成,例如信息收集与存储.信息預处理、关键词分析与索引技术。
  1.4.1  信息收集和存储技术
  网上信息收集和存储--般分为人工和自动两种方式。
  人工方式采用传统信息收集分类.存储组织和检索的方法。 研究人员对网站进行调查、筛选、分类.存储。由专业人员手工建立关键字索引.再将索引信息存人计算机相应的数据库中。
  自动方式通常是由网络机器人来完成的。网络机器人是一种自动运行的软件,其功能是搜索因特网上的网站或网页。这种软件定期在因特网上漫游.通过网页间链接顺序地搜索新的地址,当遇到新的网页时,就给该页上的某些字或全部字做上索引并把它们加人到搜索引擎的数据库中,由此,搜索引擎的数据库得以定期更新。
  一般来说,人工方式收集信息的准确性要远优于网络机器人”,但其收集信息的效率及全面性低于网络机器人1.4.2  信息预处理技术
  信息预处理要做的工作如下所述.

  1.关键调的提取
  为了支持网站排名优化后面的查询服务,需要从网页源文件中提取出能够代表其内容的一些特征.从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。
  2.重复或转载用页的消除
  Web.上的信息存在大量的重复现象,规模统计分析表明,网页的重复率平均大约为4。也就是说,当通过一个URL在网上看到一算网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容。消除内容重复或主题内容重复的网页是預处理阶段的一个重要任务。
  3.链接分析
  大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
  4.网页重要程度的计算
  顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的。如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是被引用多的就是重要的引用这个概念恰好可以通过HTML超链接在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现。这包括网页的内部链接和外部链接.
  1.4.3  信息索引技术
  信息索引就是创建文挡信息的特征记录,以便用户能够快速地检索到所需信息。建立索引主要涉及以下几个问题.
  L信息语惘切分和语调调法分析
  语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要利用各种上下文知识。语词调法分析是指识别出各个语词的词千,以便根据词干建立信息索引。
  2进行调性标注及相关的自然语言处理
  词性标往是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫键随机过程的元语法统计分析方法在闻性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。用户提交查询后,系统根据用户的检索词和查询选项返回查询结果。Google 可以自定义每页显示的结果数量,选择10.30100,Google默认值为10.-一项基本上显示出标题、网页/站简介.URL、长度、附带的全新功能等相关信息。此外,还会根据具体情况显示最新更新日期、类别等信息。Google会根据其网页级别,对结果网页排列出优先次序。如果在输人关键词后选择“手气不错”,Google将带你到它所推荐的网页,无须察看其他结果,省时方便。如果单击“网页快照”链接,所出的搜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。如果单击“类似网页”链接,Google会找寻与这一网页性质相类似的网页(- -级别的网页)。而若搜索结果是Google所推荐的网站时,在搜索结果末尾会有RN标志。

  3. Google的不足

  到目前为止,在满足用户的搜索需求上,Google依然存在一-些令人遗储的地方。1)其数据的更新速度无法进- - 步提高

  由于数据量的庞大,使Google搜索引擎的数据更新无法早于30,在一定程度 上影响了用户对信息的时效需求,Google目前还无法突破这一瓶颈。

  2)无法搜索动态生成的网页

  因为大多数负责搜索网页的Spider软件都不敢去查找动态网页,怕被变化无穷的动态系统“黑洞”吸进去出不来。Google虽然在这方面的研究取得--些突破,但离真正的实用还有一段路要走。

  3)中文状态下的Google没有成人内容过滤功能

 搜索排名优化这项功能主要是防止掉人一些具有欺骗或其他不良企图的陷阱中,因为在网上这种站

  4)目前对中国的用户还不支持OR*等符号的使用当需要检索两种不同的信息时,则必须分开检索。1.5.2雅虎搜索

  雅虎( Yahoo!)是个比较著名的网站,拥有海量般的免费信息,访问量达到1亿人次以上。

  1.雅虎简介

  雅虎在全球共有24个网站,12种语言版本,其中中文雅虎网站(en. yahoo. com)19999月正式开通,它是雅虎在全球的第20个网站。中文雅虎在许多人的心目中是搜索引擎的同义调,雅虎也确有其过人之处,其分类目录查询就做得相当出色,无论网站的数量还是分类的合理性方面都可圈可点。站点目录分为14个大类,-一个大类下面又分若干

  • 上一篇:搜索引擎的基础教程
  • 下一篇:网站优化中SEO优化的重要性和差异性
  • © 2011-2020 www.keyrey.com 上海科睿网络科技有限公司 © 版权所有 沪ICP备12032097号-1
    友情链接 : 上海app开发 app开发公司 app制作 手机软件开发 手机软件开发公司 小程序开发 上海网站制作公司
    QQ在线咨询

    上海app开发QQ在线咨询 上海app开发QQ在线咨询
    电话咨询
    400-877-9280 app开发公司电话咨询
    即时在线咨询 手机软件开发即时在线咨询
    微信扫一扫
    添加app制作微信 上海网站制作公司微信
    科睿网络-互联网开发营销专家

    凡事有交代 件件有着落 事事有回应

    立即获取为您量身定制的开发营销方案

    咨询热线 400-877-9280