Elasticsearch——分词器的内部组成到底是什么，以及内置分词器的介绍（学习笔记） - 代码天地

Elasticsearch——分词器的内部组成到底是什么，以及内置分词器的介绍（学习笔记）

其他 2021-03-02 05:35:32 阅读次数: 0

1、什么是分词器

切分词语，normalization（提升recall召回率）

给你一段句子，然后将这段句子拆分成一个一个的单个的单词，同时对每个单词进行normalization（时态转换，单复数转换）

recall，召回率：搜索的时候，增加能够搜索到的结果的数量

character filter：在一段文本进行分词之前，先进行预处理，比如说最常见的就是，过滤html标签（<span>hello<span> --> hello），& --> and（I&you --> I and you）
tokenizer：分词，hello you and me --> hello, you, and, me
token filter：lowercase，stop word，synonymom，dogs --> dog，liked --> like，Tom --> tom，a/the/an --> 干掉，mother --> mom，small --> little

一个分词器，很重要，将一段文本进行各种处理，最后处理好的结果才会拿去建立倒排索引

2、内置分词器的介绍

Set the shape to semi-transparent by calling set_trans(5)

standard analyzer：set, the, shape, to, semi, transparent, by, calling, set_trans, 5（默认的是standard）
simple analyzer：set, the, shape, to, semi, transparent, by, calling, set, trans
whitespace analyzer：Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
language analyzer（特定的语言的分词器，比如说，english，英语分词器）：set, shape, semi, transpar, call, set_tran, 5

猜你喜欢

转载自blog.csdn.net/Micheal_yang0319/article/details/107346488

Elasticsearch——分词器的内部组成到底是什么，以及内置分词器的介绍（学习笔记）

ElasticSearch最佳入门实践（四十）分词器的内部组成到底是什么，以及内置分词器的介绍

第39节：初识搜索引擎_分词器的内部组成到底是什么，以及内置分词器的介绍

Elasticsearch分词器介绍、内置分词器及配置中文分词器

Elasticsearch(10) --- 内置分词器、中文分词器

elasticsearch 分词器

Elasticsearch分词器

二、ElasticSearch内置分词器

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

elasticsearch 的分词器的介绍和使用

elasticsearch 的分词器的介绍和使用

docker安装Elasticsearch以及分词器

ElasticSearch-分词与内置、自定义分词器

Lucene的内置的分词器

ElasticSearch学习(四)-分词器

elasticsearch 分词器器读写分词

Elasticsearch7 内置分词器的使用以及中文(IK)分词器的安装和使用

ElasticSearch分词器总结

elasticsearch之分词器

elasticsearch Ik分词器

（06）ElasticSearch 分词器

Elasticsearch：Pinyin 分词器

五、Elasticsearch分词器

elasticsearch分词器详解

(七) ElasticSearch 分词器

【ElasticSearch】中文分词器

Elasticsearch学习笔记之—分词器 analyzer

elasticsearch：IK分词器-分词方法

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)