Eslaticsearch整合IKAnalyzer分词器

版权声明:Arno https://blog.csdn.net/yu342107056/article/details/88076250

这里使用的是elasticsearch-analysis-ik-5.5.2.zip的版本

安装IK分词器

解压,修改文件夹名称
/home/resources/elasticsearch-analysis-ik-5.5.2.zip
unzip解压后,将解压内容放到elasticsearch根目录的plugins
将解压的文件夹名称修改为analysis-ik
重启es

测试访问

http://192.168.1.55:9200/index01/_analyze?analyzer=ik_max_word&text="中华人民共和国"
index01:是一件提前创建好的索引
_analyze:测试分词
analyzer:使用的分词器名称 可以用standard也可以使用ik_max_word,这里用刚刚解压好的IK分词器
text:测试的文本

配置文件 elasticsearch-5.5.2/plugins/analysis-ik/config

修改目录下面的IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords">stopword.dic</entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
扩展字典:ext.dic
停用字典:stopword.dic
需要在IKAnalyzer.cfg.xml文件,在同文件中生成xml中指定的扩展词典和停用词典,插件analysis-ik根目录中

ext.dic和stopword.dic为通过IKAnalyzer.cfg.xml文件指定的字典名称,可以自定义名字,在同目录下创建字典
,可以参考自带的一些字典做分词。例如目录下的main.dic

一一列举
一一对应
一一道来
一丁
一丁不识
一丁点
一丁点儿
一七八不
一丈
一上
一上去
一上台
一上场
一上来
一下
一下下
一下儿
一下去
一下台
一下场
一下子
一下来
一不做二不休

创建索引的时候指定分词器为ik_max_word即可

猜你喜欢

转载自blog.csdn.net/yu342107056/article/details/88076250
今日推荐