搜寻引擎原理

引擎结构

搜寻引擎基本结构一般包括:搜寻器、索引器、检索器、用户接口等四个功能模组。

1）搜寻器，也叫网路蜘蛛，是搜寻引擎用来爬行和抓取网页的一个自动程式，在系统后台不停歇地在网际网路各个节点爬行，在爬行过程中儘可能快的发现和抓取网页。

2）索引器。它的主要功能是理解搜寻器所採集的网页信息，并从中抽取索引项。

3）检索器。其功能是快速查找文档，进行文档与查询的相关度评价，对要输出的结果进行排序。

4）用户接口。它为用户提供可视化的查询输入和结果输出的界面。

分类

1、全文搜寻引擎

全文搜寻引擎一般都有一种叫作“网路机器人”或“网路蜘蛛”的软体，这些软体能遍历WEB空间，扫描一定IP範围内的网站，并延着网路上的连结从一个网页到另一个网页，从一个网站到另一个网站採集网页资料。为了保持网页资料的最新，它还会回访已抓取的网页。对已经抓取到的网页，搜寻引擎还会用一定的程式进行分析，根据一定的相关度算法建立网页索引，添加到索引资料库中。全文搜寻引擎因为依靠软体进行採集网页，所以资料库的容量非常庞大，但是，它的查询结果往往不够準确。我们平时看到的全文搜寻引擎，实际上是只是一个搜寻引擎的搜寻界面。当我们输入关键字进行查询时，搜寻引擎便会从宠大的索引资料库中找到包含该关键字的所有相关网页的索引，并按一定的排名规则呈现给我们。不同的搜寻引擎，网页索引资料库也不同，排名规则也不尽相同，所以当我们以同一关键字在不同的搜寻引擎上进行查询时，搜寻的结果和排列顺序通常也不相同。

2、分类目录搜寻引擎

和全文搜寻引擎一样，分类目录搜寻引擎的整个工作过程同样也经过收集信息、分析信息和查询信息三部分，只不过分类目录搜寻引擎的前两部分，收集信息和分析信息全部由人工来完成。分类目录一般都有专门的编辑人员，负责收集网站的信息。分类目录依靠人工收集和整理网站，能够提供更为準确的查询结果，但收集的内容却非常有限。

3、元搜寻引擎

这类搜寻引擎一般都没有自己的网页搜寻软体以及资料库，它的搜寻结果是通过调用、控制和最佳化其它多个独立搜寻引擎的搜寻结果并以一定的格式在同一界面集中显示。通常元搜寻引擎在索引请求提交、检索接口代理和检索接口显示等方面，均有自己开发的具有特色的元搜寻技术。在搜寻结果上，这些元搜寻引擎往往搜寻範围更大一些。

4、集成搜寻引擎

集成搜寻引擎是通过网路技术在一个网页上连结很多个独立的搜寻引擎，查询时，点选或指定搜寻引擎，一次输入，多个搜寻引擎同时查询。搜寻的结果由各个搜寻引擎分别以不同的页面显示。

工作原理

搜寻引擎的工作原理是从网际网路上抓取网页，建立索引资料库，在索引资料库中搜寻排序。它的整个工作过程大体分为信息採集、信息分析、信息查询和用户接口四部分。信息採集是网路机器人扫描一定IP位址範围内的网站，通过连结遍历Web空间，来进行採集网页资料，为保证採集的资料最新，网路机器人还会回访已抓取过的网页；信息分析是通过分析程式，从採集的信息中提取索引项，用索引项表示文档并生成文档库的索引表，从而建立索引资料库；信息查询是指用户以关键字查找信息时，搜寻引擎会根据用户的查询条件在索引库中快速检索文档，然后对检出的文档与查询条件的相关度进行评价，最后根据相关度对检索结果进行排序并输出。

搜寻引擎原理

搜寻引擎原理

基本介绍

引擎结构

分类

工作原理

工作流程

爬行和抓取

建立索引

搜寻词处理

排序

数据结构