elasticsearch Ik分词器 - 代码天地

elasticsearch Ik分词器

其他 2019-04-26 15:36:49 阅读次数: 0

版权声明：转载请注明出处 https://blog.csdn.net/Lee_Suoer/article/details/88879997

elasticsearch 配置ik分词器插件：

将ik.zip复制到相应的文件夹下，解压。

重启es

两种analyzer，一般是选用ik_max_word

ik_max_word: 会将文本做最细粒度的拆分

ik_smart: 会做最粗粒度的拆分

扫描二维码关注公众号，回复： 6026035 查看本文章

1、ik配置文件

ik配置文件地址：es/plugins/ik/config目录

IKAnalyzer.cfg.xml：用来配置自定义词库
main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起
quantifier.dic：放了一些单位相关的词
suffix.dic：放了一些后缀
surname.dic：中国的姓氏
stopword.dic：英文停用词

ik原生最重要的两个配置文件

main.dic：包含了原生的中文词语，会按照这个里面的词语去分词
stopword.dic：包含了英文的停用词

停用词，stopword

a the and at but 一般，像停用词，会在分词的时候，直接被干掉，不会建立在倒排索引中

2、自定义词库

（1）自己建立词库：每年都会涌现一些特殊的流行词，网红，蓝瘦香菇，喊麦，鬼畜，一般不会在ik的原生词典里

自己补充自己的最新的词语，到ik的词库里面去

IKAnalyzer.cfg.xml：ext_dict，custom/mydict.dic

补充自己的词语，然后需要重启es，才能生效

（2）自己建立停用词库：比如了，的，啥，么，我们可能并不想去建立索引，让人家搜索

custom/ext_stopword.dic，已经有了常用的中文停用词，可以补充自己的停用词，然后重启es

猜你喜欢

转载自blog.csdn.net/Lee_Suoer/article/details/88879997

elasticsearch Ik分词器

elasticsearch：IK分词器-分词方法

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

elasticsearch安装ik分词器

elasticsearch插件之ik分词器

elasticSearch-ik分词器

Elasticsearch下安装ik分词器

Elasticsearch的ik中文分词器的安装

Elasticsearch安装中文分词器IK

Elasticsearch加入IK分词器

Elasticsearch 中文分词器IK

Elasticsearch 安装IK分词器插件

elasticsearch ik分词器安装

ElasticSearch入门 - 集成ik分词器

Elasticsearch(四) - IK中文分词器

ElasticSearch集成IK分词器

ElasticSearch安装中文分词器 ik

Elasticsearch整合IK分词器

ElasticSearch中使用IK分词器

Elasticsearch安装使用IK分词器

Elasticsearch---中文分词器IK

elasticsearch–ik分词器的安装

Elasticsearch之 IK 分词器

Elasticsearch安装ik中文分词器

ElasticSearch 安装IK分词器

ElasticSearch - ES集成ik分词器

ElasticSearch之 ik分词器详解

ElasticSearch 7.3.0安装IK分词器

Elasticsearch 安装 ik分词器

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)