028 ElasticSearch----全文检索技术03---基础知识详解

1.IK分词器

(1)安装

使用IK分词器可以实现对中文分词的效果。
下载IK分词器:(Github地址:https://github.com/medcl/elasticsearch-analysis-ik)


下载zip,并将解压的文件拷贝到ES安装目录的plugins下的ik目录下(注意:ik的版本必须与elasticSearch一样)

然后重启elasticsearch:

测试分词效果:
发送:post localhost:9200/_analyze
{"text":"测试分词器,后边是测试内容:spring cloud实战","analyzer":"ik_max_word" }

(2)两种分词方式

ik分词器有两种分词模式:ik_max_word和ik_smart模式。
<1>ik_max_word
会将文本做最细粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为“中华人民共和国、中华人民、中华、
华人、人民共和国、人民、共和国、大会堂、大会、会堂等词语。
<2>ik_smart
会做最粗粒度的拆分,比如会将“中华人民共和国人民大会堂”拆分为中华人民共和国、人民大会堂。

(3)自定义词库

如果要让分词器支持一些专有词语,可以自定义词库。
iK分词器自带一个main.dic的文件,此文件为词库文件。

在上边的目录中新建一个my.dic文件(注意文件格式为utf-8(不要选择utf-8 BOM,使用editplus编辑文件,不要使用自带txt文件编辑器)
可以在其中自定义词汇:
比如定义:
配置文件中配置my.dic,

重启ES,测试分词效果:
发送:post localhost:9200/_analyze
{"text":"测试分词器,后边是测试内容:spring cloud实战","analyzer":"ik_max_word" }

猜你喜欢

转载自www.cnblogs.com/luckyplj/p/11593433.html