分布式搜索引擎ElasticSearch之IK分词器(三)

继上篇文章:分布式搜索引擎ElasticSearch之head插件安装使用(二)

3.IK分词器

4.1 什么是 IK 分词器
我们在浏览器地址栏输入 http://127.0.0.1:9200/_analyze?analyzer=chinese&pretty=true&text= 我是程序员,浏览器显示效果如下

默认的中文分词是将每个字看成一个词,这显然是不符合要求的,所以我们需要安装中 文分词器来解决这个问题。 IK分词是一款国人开发的相对简单的中文分词器。虽然开发者自2012年之后就不在维护 了,但在工程应用中IK算是比较流行的一款!我们今天就介绍一下IK中文分词器的使用。

 3.2 IK分词器安装

下载地址:
链接:https://pan.baidu.com/s/1etMNjY1L2c2slon0ee5-Gw 
提取码:4a05
1 )先将其解压,将解压后的 elasticsearch 文件夹重命名文件夹为 ik
(2)将 ik 文件夹拷贝到 elasticsearch/plugins 目录下。

(3)重新启动,即可加载IK分词器

3.3 IK分词器测试

IK 提供了两个分词算法 ik_smart ik_max_word
其中 ik_smart 为最少切分, ik_max_word 为最细粒度划分
我们分别来试一下
1 )最小切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text= 我是程序员
输出的结果为:

(2)最细切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_max_word&pretty=true&text= 我是程序
输出的结果为:

.4 自定义词库
我们现在测试 " 军哥博文 " ,浏览器的测试效果如下:
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text= 军哥博文

默认的分词并没有识别“军哥博文”是一个词。如果我们想让系统识别“军哥博文”是一个
词,需要编辑自定义词库。
步骤:
1 )进入 elasticsearch/plugins/ik/config 目录
(2)新建一个zhao588 .dic 文件,名字随意起,编辑内容:
军哥博文

 一定注意这里文件编码格式一定是UTF-8

 修改IKAnalyzer.cfg.xml(在ik/config目录下)

 重新启动elasticsearch,通过浏览器测试分词效果

 nice!!!

猜你喜欢

转载自blog.csdn.net/qq_39772439/article/details/121376907
今日推荐