1. 什么是全文检索

数据分类：结构化数据和非结构化数据

结构化数据搜索：常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。

为什么数据库搜索很容易？因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。

非结构化数据查询方法

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)

虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。

如何实现全文检索

JAVA开发可以使用Lucene实现全文检索。Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，以方便的在目标系统中实现全文检索的功能。

全文检索的应用场景

对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如：论坛站内搜索、电商网站站内搜索等。

2. Lucene实现全文检索的流程

索引和搜索流程图

2.1 创建索引

对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。

2.1.1 获得原始文档

原始文档是指要索引和搜索的内容。

从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程就是信息采集，信息采集的目的是为了对原始内容进行索引。在Internet上采集信息的软件通常称为爬虫，爬虫访问互联网上的每一个网页，将获取到的网页内容存储起来。

2.1.2 创建文档对象

在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储特定的内容。

注意：每个Document可以有多个Field，不同的Document可以有不同的Field，同一个Document可以有相同的Field（域名和域值都相同）。

每个文档都有一个唯一的编号，就是文档id。

2.1.3 分析文档

将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元，可将语汇单元理解为一个一个的词。

每个单词叫做一个Term，不同的域中拆分出来的相同的单词是不同的Term。term中包含两部分一部分是文档的域名，另一部分是单词的内容。