Elasticsearch 分析器结构

分析器结构


分析器由三个构造块构成:字符过滤器、分词器、符号过滤器。
内置分析器将这三个构造块预包装进分析器中以适应不同语言与类型的文本。Elasticsearch公开了独立构造块用于将其组合定义新的分析器。

1 字符过滤器

字符过滤器以字符流形式接收原始文本,并且可以通过添加、移除或改变字符的方式转化字符流。

分析器可以包含零个或多个字符过滤器,这些过滤器可以被按序应用。

2 分词器

分词器接收字符流,将其切分为单独的符号(通常为单词),输出符号流。
分词器还负责记录每个术语的顺序或位置,以及术语表示的原始单词的开始与结束字符

分析器必须包含正好一个分词器。

3 符号过滤器

符号过滤器接收符号流,并且可以添加、删除、改变符号。
例如,stop过滤器从符号流中移除类似the的通用单词(停止单词)。

符号过滤器不能改变每个符号的位置与字符偏移量。
分析器可能有零个或多个字符过滤器,这些过滤器按序应用。


翻译源:Elasticsearch 6.4 文档

猜你喜欢

转载自blog.csdn.net/qq_32165041/article/details/83094659
今日推荐