一、目的
通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词,利于最终的全文检索。
二、环境
1.CentOS6.4
2.CDH5.7.0
3.solr-4.10.3-cdh5.7.0
三、实现步骤
1.下载ik分词器IKAnalyzer2012FF_u1
https://download.csdn.net/download/u010886217/11147669
2.把IKAnalyzer2012FF_u1.jar添加到tomcat解压缩后的solr/WEB-INF/lib目录下
/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jar
3.复制IKAnalyzer的配置文件和自定义词典和停用词词典(ext.dic、IKAnalyzer.cfg.xml、stopword.dic三个文件),拷贝到solr的classpath下,也就是在/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes目录下。如果没有classes,则新建classes目录:
cd /opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes
# ls
IKAnalyzer.cfg.xml log4j.properties stopword.dic
4.在schema.xml中添加一个自定义域类型fieldType,从而使用中文分析器。
<!-- IKAnalyzer-->
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
5.定义域field,使用刚刚定义的域类型text_ik,指定field的类型fieldtype属性为text_ik
<!--IKAnalyzer Field-->
<field name="title_ik" type="text_ik" indexed="true" stored="true" />
<field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>
6.重启tomcat
cd /opt/modules/tomcat-8.5.12
bin/shutdown.sh
bin/startup.sh
四、校验
1.打开solr
http://hadoop01:9999/solr/#/collection1
2.选择刚刚定义的content_ik分词器域
3.选择《背影》经典作为检验
我说道:“爸爸,你走吧。”他往车外看了看说:“我买几个橘子去。你就在此地,不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台,须穿过铁道,须跳下去又爬上去。父亲是一个胖子,走过去自然要费事些。
分词效果非常好