elasticsearch 分词器

其他 2018-07-16 04:45:40 阅读次数: 0

一、分词器

分词器 就是把一段句子拆分成一个一个的单个的单词，同时对每个单词进行normalization（时态转换，单复数转换）。主要作用就是：切分词语，normalization（提升recall召回率）。

normalization： 建立倒排索引的时候，会执行一个操作，对拆分出的各个单词进行相应处理，以提升后面搜索的时候能够搜索到的相关联的文档的概率。像时态转换、单复数转换、大小写转换等。

recall（召回率）： 搜索的时候，增加能够搜索到的结果的数量

二、分词器的功能

character filter：在一段文本进行分词之前，先进行预处理，比如说最常见的就是，过滤html标签。例：<span>hello<span> --> hello，& --> and，I&you --> I and you
tokenizer：分词：hello you and me --> hello, you, and, me
token filter：单复数转换、大小写转换，近义词转换，去掉a/an/the等。l

在分词器将文本进行各种处理后，最后处理好的结果才会拿去建立倒排索引。

三、es内置分词器

standard analyzer（默认使用）：大小写、去符号、按照基本空格拆分，也会按照-、_ 拆分。
simple analyzer：相当于standard，但更简单。
whitespace analyzer：不做大小写转换，且只按照空格拆分。
language analyzer：特定的语言的分词器，比如说，english，英语分词器。

四、测试分词器

GET /_analyze
{
  "analyzer": "standard",
  "text": "Text to analyze"
}

猜你喜欢

转载自blog.csdn.net/qq_37502106/article/details/80620255

elasticsearch 分词器

Elasticsearch分词器

ElasticSearch分词器总结

elasticsearch之分词器

elasticsearch Ik分词器

（06）ElasticSearch 分词器

Elasticsearch：Pinyin 分词器

五、Elasticsearch分词器

(七) ElasticSearch 分词器

elasticsearch分词器详解

【ElasticSearch】中文分词器

elasticsearch 分词器器读写分词

elasticsearch：IK分词器-分词方法

Elasticsearch(10) --- 内置分词器、中文分词器

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

【Elasticsearch】Elasticsearch 分词器对比

Elasticsearch分词器介绍、内置分词器及配置中文分词器

elasticsearch 分析器分词器

ElasticSearch（10）-分词器的使用

Elasticsearch改变默认的分词器

elasticsearch安装ik分词器

Elasticsearch——分词器对String的作用

elasticsearch插件之ik分词器

elasticsearch pinyin 拼音分词器

elasticSearch-ik分词器

Elasticsearch下安装ik分词器

Elasticsearch的ik中文分词器的安装

Elasticsearch安装中文分词器IK

Elasticsearch集成HanLP分词器

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)