种豆资源网

当前位置:首页 > 百科 > 百科综合 / 正文

搜寻引擎原理

(2020-02-13 05:04:35) 百科综合
搜寻引擎原理

搜寻引擎原理

搜寻引擎,通常指的是收集了全球资讯网上几千万到几十亿个网页并对网页中的每一个词(即关键字)进行索引,建立索引资料库的全文搜寻引擎。当用户查找某个关键字的时候,所有在页面内容中包含了该关键字的网页都将作为搜寻结果被搜出来。再经过複杂的算法进行排序(或者包含商业化的竞价排名、商业推广或者广告)后,这些结果将按照与搜寻关键字的相关度高低(或与相关度毫无关係),依次排列。

基本介绍

  • 中文名:搜寻引擎原理
  • 外文名:Principle of Search Engine
  • 工作原理:爬行和抓取、建立索引等
  • 数据结构:倒排索引

引擎结构

搜寻引擎基本结构一般包括:搜寻器、索引器、检索器、用户接口等四个功能模组。
1)搜寻器,也叫网路蜘蛛,是搜寻引擎用来爬行和抓取网页的一个自动程式,在系统后台不停歇地在网际网路各个节点爬行,在爬行过程中儘可能快的发现和抓取网页。
2)索引器。它的主要功能是理解搜寻器所採集的网页信息,并从中抽取索引项。
3)检索器。其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。
4)用户接口。它为用户提供可视化的查询输入和结果输出的界面。

分类

1、全文搜寻引擎
全文搜寻引擎一般都有一种叫作“网路机器人”或“网路蜘蛛”的软体,这些软体能遍历WEB空间,扫描一定IP範围内的网站,并延着网路上的连结从一个网页到另一个网页,从一个网站到另一个网站採集网页资料。为了保持网页资料的最新,它还会回访已抓取的网页。对已经抓取到的网页,搜寻引擎还会用一定的程式进行分析,根据一定的相关度算法建立网页索引,添加到索引资料库中。全文搜寻引擎因为依靠软体进行採集网页,所以资料库的容量非常庞大,但是,它的查询结果往往不够準确。我们平时看到的全文搜寻引擎,实际上是只是一个搜寻引擎的搜寻界面。当我们输入关键字进行查询时,搜寻引擎便会从宠大的索引资料库中找到包含该关键字的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜寻引擎,网页索引资料库也不同,排名规则也不尽相同,所以当我们以同一关键字在不同的搜寻引擎上进行查询时,搜寻的结果和排列顺序通常也不相同。
搜寻引擎原理搜寻引擎原理
2、分类目录搜寻引擎
和全文搜寻引擎一样,分类目录搜寻引擎的整个工作过程同样也经过收集信息、分析信息和查询信息三部分,只不过分类目录搜寻引擎的前两部分,收集信息和分析信息全部由人工来完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。分类目录依靠人工收集和整理网站,能够提供更为準确的查询结果,但收集的内容却非常有限。
3、元搜寻引擎
这类搜寻引擎一般都没有自己的网页搜寻软体以及资料库,它的搜寻结果是通过调用、控制和最佳化其它多个独立搜寻引擎的搜寻结果并以一定的格式在同一界面集中显示。通常元搜寻引擎在索引请求提交、检索接口代理和检索接口显示等方面,均有自己开发的具有特色的元搜寻技术。在搜寻结果上,这些元搜寻引擎往往搜寻範围更大一些。
4、集成搜寻引擎
集成搜寻引擎是通过网路技术在一个网页上连结很多个独立的搜寻引擎,查询时,点选或指定搜寻引擎,一次输入,多个搜寻引擎同时查询。搜寻的结果由各个搜寻引擎分别以不同的页面显示。

工作原理

搜寻引擎的工作原理是从网际网路上抓取网页,建立索引资料库,在索引资料库中搜寻排序。它的整个工作过程大体分为信息採集、信息分析、信息查询和用户接口四部分。信息採集是网路机器人扫描一定IP位址範围内的网站,通过连结遍历Web空间,来进行採集网页资料,为保证採集的资料最新,网路机器人还会回访已抓取过的网页;信息分析是通过分析程式,从採集的信息中提取索引项,用索引项表示文档并生成文档库的索引表,从而建立索引资料库;信息查询是指用户以关键字查找信息时,搜寻引擎会根据用户的查询条件在索引库中快速检索文档,然后对检出的文档与查询条件的相关度进行评价,最后根据相关度对检索结果进行排序并输出。

工作流程

爬行和抓取

搜寻引擎派出一个能够在网上发现新网页并抓档案的程式,这个程式通常称之为蜘蛛(Spider)。搜寻引擎从已知的资料库出发,就像正常用户的浏览器一样访问这些网页并抓取档案。搜寻引擎通过这些爬虫去爬网际网路上的外链,从这个网站爬到另一个网站,去跟蹤网页中的连结,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入资料库等待搜寻。所以跟蹤网页连结是搜寻引擎蜘蛛(Spider)发现新网址的最基本的方法,所以反向连结成为搜寻引擎最佳化的最基本因素之一。搜寻引擎抓取的页面档案与用户浏览器得到的完全一样,抓取的档案存入资料库。

建立索引

蜘蛛抓取的页面档案分解、分析,并以巨大表格的形式存入资料库,这个过程即是索引(index)。在索引资料库中,网页文字内容,关键字出现的位置、字型、颜色、加粗、斜体等相关信息都有相应记录。

搜寻词处理

用户在搜寻引擎界面输入关键字,单击“搜寻”按钮后,搜寻引擎程式即对搜寻词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜寻,判断是否有拼写错误或错别字等情况。搜寻词的处理必须十分快速。

排序

对搜寻词处理后,搜寻引擎程式便开始工作,从索引资料库中找出所有包含搜寻词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜寻”页面。再好的搜寻引擎也无法与人相比,这就是为什幺网站要进行搜寻引擎最佳化(SEO)。没有SEO的帮助,搜寻引擎常常并不能正确的返回最相关、最权威、最有用的信息。

数据结构

倒排是搜寻引擎常用的数据结构之一,倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的档案叫倒排档案,即次索引。倒排档案中包括了所有副键值,并列出了与之有关的所有记录主键值,主要用于複杂查询。 与传统的SQL查询不同,在搜寻引擎收集完数据的预处理阶段,搜寻引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排档案”。倒排档案简单一点可以定义为用文档的关键字作为索引,文档作为索引目标的一种结构(类似于普通书籍中,索引是关键字,书的页面是索引目标)。

标 签

搜索
随机推荐

Powered By 种豆资源网||