关于搜索引擎

一.什么是搜索引擎？

广义的搜索引擎泛指网络(尤其是万维网)上提供信息检索服务的工具或系统,即在因特网上或通过因特网响应用户的搜索请求,返回相应查询结果的信息技术和系统.

狭义的搜索引擎主要指利用网络自动搜索软件或人工方式,对万维网信息资源进行采集,分析与标引,并将索引信息组织成数据库,以网站形式为网络用户提供检索服务的一类信息服务系统.

概括的说：搜索引擎就是WWW网络环境中的一套信息检索系统。

搜索引擎一词在国内外因特网领域被广泛使用，然而他的含义却不尽相同。

在美国搜索引擎通常指的是基于因特网的搜索引擎，他们通过网络机器人程序收集上千万到几亿个网页，并且每一个词都被搜索引擎索引，也就是我们说的全文检索。著名的因特网搜索引擎包括First Search、Google、HotBot等。

在中国，搜索引擎通常指基于网站目录的搜索服务或是特定网站的搜索服务.

二.它是如何工作的？

它通常有两种不同的工作方式：一种是分类目录型的检索，把因特网中的资源收集起来，由其提供的资源的类型不同而分成不同的目录，再一层层地进行分类，人们要找自己想要的信息可按他们的分类一层层进入，就能最后到达目的地，找到自己想要的信息；另一种是基于关键词（Keyword）的检索，这种方式用户可以用逻辑组合方式输入各种关键词，搜索引擎计算机根据这些关键词寻找用户所需资源的地址，然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。

三.搜索引擎的历史。

1990年以前，没有任何人能搜索互联网。所有搜索引擎的祖先，是1990年由 Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。后来，程序员们开发出了一个名叫“spider”（爬虫）的“Robot”（机器人）程序，它能自动以人类无法达到的速度不断重复地在网络上检索信息。这种行为很像一只爬虫在INTERNET这张巨大的信息网上爬来爬去，因此，spider程序便由此而来。世界上第一个Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量，后来发展为也能够捕获网址（URL）^[1]。

搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展：

第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1，000，000个网页，极少重新搜集网页并去刷新索引。而且其检索速度非常慢，一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR（Information Retrieval）、网络、数据库等技术，相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月，网络爬虫（Spider）World Web Worm (WWW)平均每天承受大约1500次查询。

大约在1996年出现的第二代搜索引擎系统大多采用分布式方案（多个微型计算机协同工作）来提高数据规模、响应速度和用户数量，它们一般都保持一个大约5千万网页个的索引数据库，每天能够响应1千万次用户检索请求。1997年11月，当时最先进的几个搜索引擎号称能建立从2百万到1亿的网页索引。Altavista搜索引擎声称他们每天大概要承受2千万次查询。

2000年搜索引擎2000年大会上，按照Google公司总裁Larry Page的演讲，Google正在用3千台运行Linux系统的个人电脑在搜集Web上的网页，而且以每天30台的速度向这个微机集群里添加电脑，以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页，平均速度是每秒48.5个网页，一天可以搜集超过4百万个网页。

四.搜索引擎的分类

搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎（Full Text Search Engine）、目录索引类搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。

全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，国内著名的有百度（Baidu）。它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，因此他们是真正的搜索引擎。

目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词（Keywords）查询，仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project（DMOZ）、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类^[2]。

元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。

五.搜索引擎的发展趋势

搜索引擎经过几年的发展和摸索，越来越贴近人们的需求，搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面：

为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言，为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。用户可以输入简单的疑问句，比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于，一是使网络交流更加人性化，二是使查询变得更加方便、直接、有效。

1.基于链接评价的搜索引擎

基于链接评价的搜索引擎的优秀代表是Googel，它独创的“链接评价体系”是基于这样一种认识，一个网页的重要性取决于它被其它网页链接的数量，特别是一些已经被认定是“重要”的网页的链接数量。

2.基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是direct hit，它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名，并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。
3.去掉检索结果中附加的多余信息

有调查指出，过多的附加信息加重了用户的信息负担，为了去掉这些过多的附加信息，可以采用用户定制、内容过滤等检索技术。

确定搜索引擎信息搜集范围，提高搜索引擎的针对性

六.搜索引擎的组成部分

一个搜索引擎大致由三部分组成。第一部分是搜索器，也就是上面提到的Spider程序。它定期的自动爬到各个网站上，把网页抓下来，并顺着上面的链接，象爬虫一样爬开去，持续不断的抓取网页。第二部分是索引器，它把爬虫程序抓来网页进行分析，按照关键词句进行索引，并存入服务器的数据库中。

第三部分是面向用户的检索器，它接收用户提交的查询字串，在索引数据库中查询，并将结果反馈给用户。

因此，准确的说，当我们利用搜索引擎搜索信息时，并不是真正在网上进行搜索，而是在检索那个由爬虫程序自动建立起来的庞大的数据库。由于各大搜索引擎的数据库的自动更新周期是不同的，从几天到几周甚至一个月都有可能，因此，选择合适的搜索引擎显得尤为重要。同时，有时也可能遇到用搜索引擎搜索到的网页无法打开的情况，了解了它的工作原理，这一点也就不会大惊小怪了^[3]。

四.搜索引擎的分类

五.搜索引擎的发展趋势

六.搜索引擎的组成部分

猜你喜欢