lucene学习笔记(1)---lucene介绍及入门程序

一、 什么是lucene?

  Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

  

二、数据的分类

 1、结构化数据:指具有固定格式或者有限长度的数据,如数据库中的数据

 2、非结构化数据:指不定长或无固定格式的数据,如word文档中的数据

三、非结构化数据的查询方法

 1、顺序扫描法(Serial Scanning):将文档从头到尾看(相当于遍历一遍),然后去匹配相应的数据--->不推荐

 2、全文检索法(Full-text Search):将数据的一些信息提取出来作为索引(相当于字典的目录),然后通过索引去找到相应的数据--->推荐

四、通过lucene实现全文检索的过程

 

1、绿色表示索引过程,对要搜索的原始内容进行索引构建一个索引库,索引过程包括:

     确定原始内容即要搜索的内容--》采集文档--》创建文档--》分析文档--》索引文档

2、红色表示搜索过程,从索引库中搜索内容,搜索过程包括:

     用户通过搜索界面--》创建查询--》执行搜索,从索引库搜索--》渲染搜索结果  

 

 

  

猜你喜欢

转载自blog.csdn.net/pbrlovejava/article/details/81322409