搜索引擎初识

什么是搜索引擎

一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。最早应用于信息检索领域,经谷歌、百度等公司推出网页搜索而为大众广知,后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用,是大型系统、网站架构师必备技能。


解决的问题:专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。

适用场景

  • 信息检索(如电子图书馆、电子档案馆)
  • 网页搜索
  • 内容提供网站的内容搜索(如 新闻、论坛、博客网站)
  • 电子商务网站的商品搜索
  • 如果你负责的系统数据量大,通过数据库检索慢,可以考虑用搜索引擎来专门负责检索

核心部件构成

  • 数据源
  • 分词器
  • 反向索引(倒排索引)
  • 相关性计算模型

数据类型

  • 结构化数据:用表、字段表示的数据,一般存储于数据库中
  • 半结构化数据:xml、html的文件数据
  • 非结构化数据:文本、文档、图片、音频、视频等

猜你喜欢

转载自blog.csdn.net/supermao1013/article/details/83443509