搜索引擎的分类 - 长篇鬼故事 - 中国鬼故事网

长篇鬼故事 - 搜索引擎的分类

2023-04-10 06:29:24 阅读 :

搜索引擎的分类

本文核心词:

攻击者经常会利用各大搜索引擎来搜集用户的信息,这些搜索引擎主要分为几种类型,攻击者一般都比较熟悉各类搜索引擎,这可以使他们更加方便地利用各类搜索引擎来搜集用户信息。下面就给大家简单介绍三类搜索引擎。

2.2.1全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。从搜索结果来源的角度看,全文搜索引擎又可以细分为两种: 一种是拥有自己的检索程序,俗称机器人程序或蜘蛛程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的搜索引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

全文搜索引擎有全文搜索、检索功能强、信息更新速度快等优点。但也有其不足之处,提供的信息虽然多而全,但可供选择的信息太多反而降低了相应的命中率,并且提供的查询结果重复链接较多,层次结构不清晰,给人一种繁多杂乱的感觉。

2.2.2目录索引

目录索引虽然具有搜索功能,但严格意义上不能称其为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo, 以及国内的搜狐、新浪、网易等。另外,在网上的一些导航站点,也可以归属为原始的分类目录。

目录索引与全文搜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行了分类,不像全文搜索引擎那样,将网站上的所有文种和信息都收录进去。目录索引首先将某网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍,用户提出搜索要求时,搜索引擎只在网站的简介中搜索,它的主要优点有:层次结构清晰,易于查找;多级类目,便于查询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,使用户一目了然。其缺点是搜索范围较小、更新速度慢、查询交叉类目时容易遗漏。

2.2.3元搜索引擎

元搜索引擎一般没有自己的网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其他多个独立搜索引擎的搜索结果,并以统一的格式在同一界面集中显示。

著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo 等,中文元搜索引擎中最具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

2.3搜索引擎的关键技术

现在网上搜索引擎很常见,很多网站建立了搜索引擎。一些经常用到、比较大的网络搜索引擎有前面提到的百度、谷歌等,在这些搜索引擎网站上直接输入想查找内容的关键字,可以很快地在网络上查到需要的信息,攻击者也青睐于这些搜索引擎技术来帮助他们搜索需要的各种信息。下面就带领大家来学习搜索引擎的一些关键技术。

2.3.1信息收集和存储技术

信息收集和存储技术主要包括两种方式,即人工方式和自动方式。

人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调查、筛选分类存储。由专业人员手工建立关键字索引,再将索引信息存入计算机相应的数据库中。

自动方式通常是由网络机器人来完成的。“网络机器人” 是一种自动运行的软件,其功能是搜索网上的网站和网页。这种软件定期在网上漫游,通过网页间的链接按顺序地搜索新的地址,当遇到新的网页时,就给该网页上的某些字或全部字做上索引,并把它们加人搜索引擎的数据库中,由此搜索引擎的数据库得以定期更新。

一般来说, 人工方式收集信息的准确性要远优于“网络机器人” ,但其收集信息的效率及全面性低于“网络机器人”。

2.3.2信息预处理技术

信息预处理包括信息格式支持与转换及信息过滤。目前网上的信息发布格式多种多样,这就要求搜索引擎支持多种文件格式。从实际情况来看,所有的搜索引擎都支持HTML格式,而对于其他文件格式的支持,不同的搜索引|擎有不同的规定,最多的能支持200.多种文件格式。

一般来说,一个企业级的公用Web站点起码应该支持40~60种文件格式。搜索引擎应具备信息转换功能,以保证不同格式的数据均能在网络上流通。信息过滤也是搜索引擎的一项重要技术,因为网上存在大量的无用信息,一个好的搜索引擎应当尽量减少垃圾站点的数量,这是信息过滤要着重解决的问题。

2.3.3信息索引技术

信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。建立信息索引主要涉及以下几个问题。

(1) 信息语词切分和语词词法分析。语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要充分利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。

(2) 进行词性标注及相关的自然语言处理。词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的n元语法统计分析方法在词性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。

(3)建立检索项索引。使用倒排文件的方式建立检索项索引,一般包括“检索项”“检索项所在的文件位置信息”及“检索项权重”

(4)检索结果处理技术。搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常放在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。

●概率方法。根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。

●位置方法。根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现的越早,文件的相关程度就越高。

●摘要方法。搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以便用户进行选择。

●分类或聚类方法。 搜索引擎采用分类或聚类技术,自动把查询结果归入不同的类别中。

本文标题:搜索引擎的分类 - 长篇鬼故事
本文地址:http://www.chinaggs.net/changpianguigushi/39551.html

相关文章

  • 浅谈LDL 原LSPL 改制对中国英雄联盟职业联赛的积极影响

    浅谈LDL 原LSPL 改制对中国英雄联盟职业联赛的积极影响,浅谈LDL 原LSPL 改制对中国英雄联盟职业联赛的积极影响本文核心词:英雄联盟,LPL,LDL可以看到不只是有升降级赛,不过主要讨论LDL,其他的暂时忽略2017年4月30日,在英雄联盟职业联赛春季总决赛电竞战略...

    2023-03-26 长篇鬼故事
  • 王宝强现在片酬是多少?

    王宝强自离婚事件以来,舆论一直偏向于他,网民们更是对其持同情态度,认为王蓉给他带了绿帽,还卷走他的财产,事实上,经过离婚事件的曝光发酵,王宝强可谓是因祸得福,身价更是比出事前大...

    2022-10-21 长篇鬼故事
  • 惊雷原唱是谁

    本文分享的是关于惊雷原唱是谁,想了解就跟着有图小编一起往下看吧。惊雷原唱是谁《惊雷》这首歌的热度最近的确实很高的,在很多各平台上都十分的火,但是最近杨坤diss《惊雷》这...

    2022-11-08 长篇鬼故事
  • 唐三的魂环都是什么

    唐三的魂环都是什么唐三的魂环是曼陀罗蛇、鬼藤、人面魔珠、地穴魔珠、小舞、大明二明、虎鲸王、深海魔鲸王。《斗罗大陆》中,唐三一共有九个威力巨大的魂环,这九个魂环大部分...

    2022-11-19 长篇鬼故事
  • 世界上最大的月饼叫什么(图片)

    世界上最大的月饼叫什么(图片) 时间过的很快马上又是21年的中秋节了,还记得在07年8月份,中国沈阳的大东副食超市就推出了一款世界上最大的月饼,据说单单是制作外皮使用的面粉就达...

    2022-12-04 长篇鬼故事
  • 65岁费玉清隐退 为何至今未婚 其实他三观很正

    65岁费玉清隐退 为何至今未婚 其实他三观很正本文核心词:费玉清,张菲,一剪梅乐坛“常青树”费玉清现在已经隐退了,按照年龄推算,他今年已经是65岁了。可是,费玉清目前依然是单身...

    2023-03-29 长篇鬼故事
  • 梁荣忠车震门事件回顾

    梁荣忠是香港的一名男明星兼节目主持人,虽然至今没有主演过一部电视剧,但是在许多优秀的电视剧作品中都能看到他的身影。最出名的一段就是在《唐伯虎点秋香》中与周星驰饰演的...

    2022-11-19 长篇鬼故事
  • 奥特系列历代地球防卫队

    奥特系列历代地球防卫队本文核心词:奥特曼,人类,防卫队奥特曼中,虽然奥特曼是主角,但是其实每部作品中,还是主要讲述人类的故事,一般有起码一半的剧情会在讲述人类如何抵抗,所以也...

    2022-11-01 长篇鬼故事
  • 斯帝罗兰家具怎么样 千万不要被忽悠了

    斯帝罗兰家具怎么样 千万不要被忽悠了本文核心词:很多小伙伴很关心斯帝罗兰家具怎么样这个问题,我们参考了很多用户评价,普遍反应不错的,物流不是很快,但沙发还行,客服一般一般皮...

    2022-11-16 长篇鬼故事
  • 超深钻孔最深达12,262米

    科拉超深钻孔现位于俄罗斯科拉半岛附近,由前苏联科学家在1970年开始勘探,最后由于经费不足,于1994年停止终止钻探工作。其中最深的一个钻井已达12,262米,至今依然保持着世界最深...

    2023-02-18 长篇鬼故事
你可能感兴趣