6.X elasticsearch实战学习笔记_分析器 - 代码天地

6.X elasticsearch实战学习笔记_分析器

其他 2019-09-06 21:53:06 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_43707160/article/details/100073913

分析器

ps: Analysis 是将文本转化为tokens（标记）或terms（术语）的过程。tokens和terms被添加到倒排索引中，用于搜索。
ps:分析由分析器执行，分析器可以是内部分析器，也可按索引定义的自定义分析器。

索引时分析

指定索引的analyzer

搜索时分析器

在类似match query 的全文搜索时，该类分析器将查询字符串的文本转为term，会将同一分析器应用于查询字符串、文本
指定查询时分析器
1. 通常在索引和搜索时，应使用相同的分析器

分析器架构

一个分析器包含三个较底层构建块的包:character filters（字符过滤器）、tokenizers（分词器）、token filters（标记过滤器）
内置分析器将这些构建块先打包成适合不同语言、文本类型的分析器

character filter: 将原始文本作为字符流接受，可通过增删改字符来转换流【character filter可有0到多个，按顺序应用】
Tokenizer: 接收字符流，将其分解为单个token，并输出token流【tokenizer还负责记录每个term的顺序和位置以及该term所代表的原始单词的开始和结束的字符偏移量，Tokenizer有且只能有一个】
Token filter：token filter 接收token流，可增删改token【token filter 不允许更改每个token的位置和字符偏移量，可有0个或多个token filer，按顺序应用】

测试分析器

POST _analyze

Positions and ccharacter offsets
分析器将单词转为term,记录term的顺序或相对位置，原始文本中每个term的开始结束字符偏移量（用作高亮显示搜索片段）
在指定索引上可以引用自定义分析器

内置分析器

内置分析其不需配置即可使用，一些分析器支持配置选项以改变其行为，ex:standard 分析器可配置停用词
standard 分析器

构成：
1. tokenizer:Standard Tokenizer
1. token filters: Standard Token Filter、Lower Case Token Filter、Stop Token Filter（默认禁用）
通常添加token filters 进行修改

Simple Analyzer

simple analyzer 将文本分割为terms，所有的term都是小写
该分析器不可配置
构成：
1. Tokenizer: Lower Case Tokenizer

Whitespace 分析器

whitespace分析器在遇到空格字符时将文本转换为terms
不可配置
构成：
1. Whitespace Tokenizer

Stop Analyzer

与simple分析器相同，但增加了删除停用词，默认使用_english_停用词
配置参数：
1. stopwords: 预定义的停用词列表
1. stopwords_path:停用词文件的路径，是elasticsearch 的config目录的相对路径
构成：
1. Tokenizer： Lower Case Tokenizer
1. Token filters: Stop Token Filter

keyword Analyzer

keyword分析器是一个noop分析器，将整个输入字符作为单个token返回
无配置参数
构成：
1. Tokenizer: Keyword Tokenizer

Pattern Analyzer

pattern分析器使用正则表达式将文本分隔为terms，正则表达式匹配token separators ，不是token本身，正则默认为\W+
配置参数
1. pattern: java正则表达式，默认为\W+
1. flags: java正则表达式flags，flags 用管道符分割
1. lowercase:terms是否小写，默认为true
1. stopwords: 预定义的停用词列表
1. stopwords_path
构成：
1. Tokenizer : Pattern Tokenizer
1. Tokenizer Filters: Lower Case Token Filter 、Stop Token Filter（默认禁用）

自定义分析器

可创建的自定义分析器构成：

0或多个character filters
1个tokenizer
0或多个token filters

配置：

tokenizer: 必选，内置的或自定义的tokenizer
char_filter: 可选，内置或自定义的character filters数组
filter : 可选参数，内置或自定义的token filters
position_increment_gap: 当索引文本数组的值时，es会在一个值的最后一个term和下一个值的第一个term中插入一个虚假间隙，确保短语查询不会匹配两个不同元素的term

猜你喜欢

转载自blog.csdn.net/weixin_43707160/article/details/100073913

6.X elasticsearch实战学习笔记_分析器

Elasticsearch 6.x 安装

Elasticsearch 6.X安装

6.X elasticsearch实战学习笔记_索引管理05

6.X elasticsearch实战学习笔记_索引管理04

6.X elasticsearch实战学习笔记_索引管理08

6.X elasticsearch实战学习笔记_索引管理07

6.X elasticsearch实战学习笔记_索引管理06

6.X elasticsearch实战学习笔记_索引管理09

ElasticSearch 6.x 学习笔记：6.索引

elasticsearch 6.x插件开发

ElasticSearch 6.x head插件安装

Elasticsearch 6.x Mapping设置

ElasticSearch 6.x 安装Head 插件

Elasticsearch 6.x 倒排索引与分词

Elasticsearch 6.x 新变化

Elasticsearch 6.x集群搭建

docker 安装ElasticSearch 6.x

Elasticsearch 6.x 下载安装

elasticsearch 6.x RestHighLevelClient使用

centos 7.0安装elasticsearch 6.x

ElasticSearch 6.x 学习笔记：2.elasticsearch-head

NC 6.X笔记（编辑中）

ElasticSearch 6.x 学习笔记：15.检索入门

ElasticSearch 6.x 学习笔记：14.mapping参数

ElasticSearch 6.x 学习笔记：12.字段类型

ElasticSearch 6.x 学习笔记：11.映射Mapping

ElasticSearch 6.x 学习笔记：10.批量操作

ElasticSearch 6.x 学习笔记：7.文档

ElasticSearch 6.x 学习笔记：9.版本控制

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)