1.Solr自带分词器对中文支持不好
1.1 默认分词器
字段类型: text_ja
字段类型:text_general
小结:
Solr自带的分词器对中文分词效果不理想,要么不分词,要么所有汉字都被分隔开来。所以需要增加理想的中文分词插件。
2. mmseg4j分词器
2.1 下载
从https://github.com/chenlb/mmseg4j-solr/wiki下载
2.2 拷贝jar包
拷贝到SolrCloud所有节点(node1,node2,node3)的/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib目录下。
2.2 编辑node1的配置文件schema.xml
3. IK Analyzer分词器[推荐]
3.1下载源码
https://github.com/EugenePig/ik-analyzer-solr5
3.2 手动使用maven编译jar包
摘自:https://github.com/EugenePig/ik-analyzer-solr5/blob/master/README.md
3.3 编译结果:
该包内部结构:自己包含了所需的配置文件
3.4 拷贝jar到solrcloud所有节点中
拷贝到所有节点的目录/usr/local/src/solr-5.5.0/server/solr-webapp/webapp/WEB-INF/lib中
3.5配置solr的schema.xml
3.6 重新创建collection
3.7 分词测试
使用text_ik分词:
对比text_general分词效果: