一、简介
在solr7中,有自带HMMChineseTokenizerFactory中文分词器,这里另外介绍一种
常用的中文分词器,ik分词器。
ik分词器官网自2012年后就没有更新,在solr7中,以前的版本是不用能的。
这是介绍在github上公开的可用于solr7的ik分词器。
二、安装步骤
1、下载ik分词器
git clone https://github.com/magese/ik-analyzer-solr7
2、编译ik分词器
cd ik-analyzer-solr7 mvn package -Dmaven.test.skip=true
3、将打包好的ik分词器(target/ik-analyzer-solr7-7.x.jar)放到
solr根目录下的server/solr-webapp/webapp/WEB-INF/lib/目录里
cp target/ik-analyzer-solr7-7.x.jar /home/solr/server/solr-webapp/webapp/WEB-INF/lib/
4、修改指定core下的conf/managed-schema文件,添加
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType>
5、重启solr
bin/solr start
此至,ik分词器安装完成。
使用时,在字段定义的type填写text_ik即可,如:
<field name="stu_id" type="text_ik" indexed="true" stored="true"/>