（06）ElasticSearch 分词器 - 代码天地

（06）ElasticSearch 分词器

其他 2019-08-24 17:44:09 阅读次数: 0

分词器是用来实现分词的，从一串文本当中切分出一个一个的单词（词条），并对每个词条进行标准化处理（大小写、单复数、同义词等转换）。分词器包括3部分：

　　1、character filter：分词之前的预处理，过滤掉html标签，特殊符号转换等。

　　2、tokenizer：分词，

　　3、token filter：标准化

ElasticSearch内置分词器：

　　1、standard分词器：（默认分词器）它会将词汇单元转换成小写形式，并除去停用词（a、an、the等）和标点符号，支持中文采用的方法为单字切分。

　　2、simple分词器：首先会通过非字母字符来分割文本信息，然后将词汇单元统一成小写形式，该分词器会去掉数据类型的字符。

　　3、Whitespace分词器：仅仅是去掉空格，对字符没有lowcase化，不支持中文；并且不对生成的词汇单元进行其他的标准化处理。

　　4、language分词器：特定语言的分词器，不支持中文

安装中文分词器：

猜你喜欢

转载自www.cnblogs.com/javasl/p/11405350.html

（06）ElasticSearch 分词器

Elasticsearch基础06——分词器

elasticsearch 分词器

Elasticsearch分词器

elasticsearch 分词器器读写分词

ElasticSearch分词器总结

elasticsearch之分词器

elasticsearch Ik分词器

Elasticsearch：Pinyin 分词器

五、Elasticsearch分词器

(七) ElasticSearch 分词器

elasticsearch分词器详解

【ElasticSearch】中文分词器

elasticsearch：IK分词器-分词方法

Elasticsearch(10) --- 内置分词器、中文分词器

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

Elasticsearch分词器介绍、内置分词器及配置中文分词器

【Elasticsearch】Elasticsearch 分词器对比

elasticsearch 分析器分词器

ElasticSearch（10）-分词器的使用

Elasticsearch改变默认的分词器

elasticsearch安装ik分词器

Elasticsearch——分词器对String的作用

elasticsearch插件之ik分词器

elasticsearch pinyin 拼音分词器

elasticSearch-ik分词器

Elasticsearch下安装ik分词器

Elasticsearch的ik中文分词器的安装

Elasticsearch安装中文分词器IK

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)