Web

搜索引擎如何工作?

How dose search engine work?

Posted by 王灿辉 on 2018-11-19

如今搜索引擎已经成为了我们日常生活中必不可少的一部分,我们熟知的搜索引擎有哪些呢?百度、谷歌、搜狗、360、bing、酷狗、淘宝(商品搜索)、饿了么(美食搜索)、高德(地图搜索),我们可以通过它们检索各种各样的信息。

我们一起回顾一下,我们是如何使用搜索引擎的?

我们可以向这些搜索引擎提交:

  • 关键词
  • 词组
  • 自然语言

搜索引擎的基本工作过程:

  • 自动搜集信息资源
  • 建立索引
  • 提供索引服务

然后搜索引擎根据我们提出的检索要求,代替我们到数据库中进行查找,并将检索到的网页或文件返回给我们。

那么面对种类繁多的搜索引擎,我们要怎么对他们进行分类呢?从不同的角度,我们可以用不同的方式进行分类,我们从以下三种角度来分类:

  • 按信息的组织方式:
  • 目录式搜索引擎

    目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。

  • 全文搜索引擎

    计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

  • 按专业范畴:
  • 综合型搜索引擎

    在采集和标引网络资源时不限制资源的主题范围和数据类型,所以能囊括几乎所有方面的网络资源

  • 垂直搜索引擎

    专业搜索引擎,专门查询某一领域信息的搜索引擎

  • 按检索功能:
  • 独立搜索引擎
  • 元搜索引擎

接下来,我们不妨先提个问,看看大家有没有理解之前的内容,网络信息资源检索工具分为那两种?为什么这样分类?

至于为什么要分为非web资源检索工具和web资源检索工具,咱们一起了解一下搜索引擎的发展历程就可以知道了。

搜索引擎的发展

(治学先治史) 我们都学过计算机网络了,都知道Internet是由ARPAnet发展而来的,其核心是TCP/IP协议簇。

时间 事件
1969 ARPA
1972 Email
1974 TCP/IP
1984 DNS
1989 FTP
1990 Archie
1991 WWW
1993 WWW Wanderer
1994 WebCrawler
1995 Meta-Search Engine

非web时代

20世纪90年代以前,因特网的主要使用者还是研究人员、学者和大学生,他们使用

  • telnet 登录远程主机
  • ftp 在远程主机和本地主机之间传输文件
  • 新闻组收发新闻
  • email 收发电子邮件

web时代

虽然这些应用都非常有用,到现在也是如此,但是当时 因特网还不被学术界和研究界之外的领域所熟知。 90年代初,博纳斯李开发了一个新型的因特网应用WWW。 我们所说的web就是WWW的简称,web是一个引起公众注意的因特网应用。它的流行同时也巩固了因特网的地位,让因特网从众多数据网中脱颖而出,成为了唯一。

因此可以说普通大众了解因特网是从学习使用web开始的。

搜索引擎

所以搜索引擎的发展也是一起发展的。 Archie被认为是世界上的第一个搜索引擎,但是严格来讲他并不是真正意义上的搜索引擎,原因有两点:

  • 一是它只能搜索FTP文件资源,并不能获取诸如网页等其他类型的文件资源,因此它其实是世界上第一个FTP搜索引擎。
  • 二是它没有机器人(Robot)程序,不能象今天的搜索引擎那样快速有效的抓取Internet上的网页文章内容,相反它使用的是一个基于脚本的文件名称收集器,并通过正则表达式来匹配用户查询与文件名称来实现查询,并通过文件列表的方式提供信息查询结果。

web的流行让网络上的内容得到了极大的丰富,爬虫机器人开始流行起来。 94年之后出现了全文搜索引擎,95年出现了元搜索引擎。 20世纪90年代后期,出现了专门针对某一领域的搜索引擎:垂直搜索引擎。 接下来为大家简单介绍一下独立搜索引擎和元搜索引擎的工作原理。

独立搜索引擎通常由三个模块组成:

  • 数据采集模块
    现在数据采集主要爬虫机器人完成,他们通过网页中 的url将一个又一个的网页,主要是网页中的文字信息,存储到网页数据库中
  • 数据分析和标引模块
    由自动标引器对网页数据库中的网页信息按专门的算法进行分析和排序,再将结果存储到索引数据库中
  • 数据检索模块
    用户通过浏览器等接口发出检索命令,提交到检索器,由检索器到索引数据库中进行查找,最后通过浏览器将查询结果返还给用户

现代的搜索引擎通常还会提供

  • 信息挖掘模块
    它能够用来跟踪和发现用户的需求,为用户提供个性化服务,如购物推荐

元搜索引擎也可以称多元搜索引擎,它的工作是以独立搜索引擎为基础的。

元搜索引擎为多个独立搜索引擎提供了一个统一的用户接口,元搜索引擎会通过查询代理将用户的搜索命令转化成许若干个不同的独立搜索引擎能够接受的搜索命令,将原来的搜索任务分发给各个独立搜索引擎完成,最后对查询结果进行汇总和去重,再返还给用户。



赞赏支持
微信赞赏
微信赞赏
支付宝
支付宝