Solr-5.5.0 Chinese Word Plugins

1.Solr自带分词器对中文支持不好

1.1 默认分词器

字段类型: text_ja

字段类型:text_general

 

小结:

         Solr自带的分词器对中文分词效果不理想,要么不分词,要么所有汉字都被分隔开来。所以需要增加理想的中文分词插件。

2. mmseg4j分词器

2.1 下载

https://github.com/chenlb/mmseg4j-solr/wiki下载

2.2 拷贝jar包

拷贝到SolrCloud所有节点(node1,node2,node3)的/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录下。

2.2 编辑node1的配置文件schema.xml

 

 

3. IK Analyzer分词器[推荐]

3.1下载源码

https://github.com/EugenePig/ik-analyzer-solr5

 

3.2 手动使用maven编译jar包

摘自:https://github.com/EugenePig/ik-analyzer-solr5/blob/master/README.md

3.3 编译结果:

该包内部结构:自己包含了所需的配置文件

3.4 拷贝jar到solrcloud所有节点中

拷贝到所有节点的目录/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib中

3.5配置solr的schema.xml

<!-- libing add  2016 - 04 - 06  IK Analyzer  -->
   <fieldTypename= "text_ik" class = "solr.TextField" >
      <analyzertype= "index" useSmart= "false"
         class = "org.wltea.analyzer.lucene.IKAnalyzer" />
      <analyzertype= "query" useSmart= "true"
         class = "org.wltea.analyzer.lucene.IKAnalyzer" />
   </fieldType>

3.6 重新创建collection

3.7 分词测试

使用text_ik分词:

 

对比text_general分词效果:

3.8 高亮查询测试

 

猜你喜欢

转载自penghuaiyi.iteye.com/blog/2309894