【ElasticSearch从入门到放弃系列二】全文检索的实现思路

上一篇全文检索的基本概念讲到了为什么要有全文检索这样的需求，那么有了需求，就有实现，全文检索实现流程和原理如下图所示：
在这里插入图片描述
上图的执行流程说明如下：

左侧绿色部分表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：确定原始内容即要搜索的内容—>采集文档—>创建文档—>分析文档—>索引文档
右侧红色部分表示搜索过程，从索引库中搜索内容，搜索过程包括：用户通过搜索界面传参—>创建查询—>执行搜索、从索引库搜索—>渲染搜索结果

我们来具体看下索引库的基本创建过程和查询过程。

索引库创建过程

对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中，也就是左侧的绿色流程：

确定原始内容即要搜索的内容：确定我们的需求，这里就是这个存放了诸多文档的文件夹
采集文档：手段有很多，网络爬虫，数据读取，文件IO读取，我们这里用的就是文件IO读取
创建文档：获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。这里我们可以将磁盘上的一个文件当成一个document，Document中包括一些Field（file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容），如下图：

每个文档都有一个唯一的编号，就是文档的id。
分析文档：将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元，可以将语汇单元理解为一个一个的单词，例如：Lucene is a Java full-text search engine. 分析后得到的语汇单元：lucene、java、full、text、search、engine。每个单词叫做一个Term，不同的域中拆分出来的相同的单词是不同的term。term中包含两部分一部分是文档的域名，另一部分是单词的内容，如下同样是spring单词，但是是从不同域拆出来的，所以是不同的term。
索引文档：对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档），注意：创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。倒排索引结构是根据内容（词语）找文档，如下图

这里的词典就是term的集合，每个term【域和关键词的组合】会索引一连串满足条件的文档的id，检索时通过term检索可以找到这传id，进而找到文档。

实际上以上过程就是将非结构化的一些数据进行结构化提取。

索引库查询过程

查询索引也是搜索的过程。搜索就是用户输入关键字，从索引（index）中进行搜索的过程。根据关键字搜索索引，根据索引找到对应的文档，从而找到要搜索的内容（这里指磁盘上的文件），也就是右侧红色的部分：

用户通过搜索界面键入关键词：全文检索系统提供用户搜索的界面供用户提交搜索的关键字，搜索完成展示搜索结果，例如我们常用的百度就是这个原理。
创建查询：用户输入查询关键字执行搜索之前需要先构建一个查询对象，查询对象中可以指定查询要搜索的Field文档域、查询关键字等，查询对象会生成具体的查询语法
执行搜索、从索引库搜索：根据查询语法在倒排索引词典表中分别找出对应搜索词的索引，从而找到索引所链接的文档链表
渲染搜索结果：以一个友好的界面将查询结果展示给用户，用户根据搜索结果找自己想要的信息，为了帮助用户很快找到自己的结果，提供了很多展示的效果，比如搜索结果中将关键字高亮显示，百度提供的快照等

以上部分就是全文检索如何实现索引库的查询

流程举例说明

按照如上的流程来模拟一遍。提出如下需求：给出一组doc文件，如下图所示，用于建立索引和搜索，找到指定的文档：要求找出所有文件名包含丑字的文件。
在这里插入图片描述
那么按照需求我们来看下如何实现，还是按照上边的流程两步走：

1，创建文档的相关索引，按照流程处理如下：

确定原始内容即要搜索的内容：确认要搜索的是文档的文件名，所以只给文件名进行索引即可。需要说明的是当前这个例子比较简单，基本通过目测就可以实现，就是举个例子，实际上文档成千上万的时候，索引非常有用。
采集文档：我们这里可以通过将文件通过IO读取到磁盘即可。
创建文档：创建一个文档对象，在文档对象下我们可以创建一个FieldName为Name的域，Value值即为文件名【ex:tml有点帅】
分析文档：将文件名进行处理，如果按照标准的分词方法可以举例如下：tml有点帅分词时分为**：tml、有、点、帅** 。
索引文档：索引文档就是建立term【某个域下的某个关键词】和文档的关系，倒排索引结构的创建，例如这里就是：如果搜tml能搜出5篇对应的文档，而搜丑则只能搜出两篇【很丑、tml介于帅和丑之间】

右侧红色部分表示搜索过程，从索引库中搜索内容，按照流程处理过程如下：

用户通过搜索界面传参：选定好域：文件名，关键词：丑
创建查询：创建一个term结构：fieldName: 文件名，Value: 丑
执行搜索、从索引库搜索：找到所有包含丑关键词的文档，共两篇，返回文档id：3、4
渲染搜索结果：通过文档id找到对应文档，返回结果，呈现给用户

以上就是全文检索的实现逻辑，下一篇blog我们来按照这个流程实战一下