solr 中文分词配置 - 代码天地

solr 中文分词配置

企业开发 2018-05-10 07:13:46 阅读次数: 1

效果：

输入中国人民，包涵中国的结果能出来，包涵人民的结果也能出来。

比较流行的中文分词是ik分词、mmseg4j分词

配置步骤(mmseg4j)：

1.下载jar包 (2个名称:mmseg4j-solr-2.3.1-SNAPSHOT.jar mmseg4j-core-1.10.1-SNAPSHOT.jar)

http://code.google.com/p/mmseg4j/ 需要|翻|墙

http://download.csdn.net/detail/limeng650419/9531100 mmseg4j-solr-2.3.1-SNAPSHOT.jar 无需|翻|墙

http://download.csdn.net/detail/limeng650419/9531097 mmseg4j-core-1.10.1-SNAPSHOT.jar 无需|翻|墙

2.将jar包放在solr的lib目录下

例:solr.war/WEB-INF/lib

3.在solr的conf目录下找到schema.xml 文件，配置fieldType节点

例：

<fieldType name="mmse4j_zh" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />

</analyzer>

</fieldType>

4.配置一个field做测试用，然后重启solr服务器

<field name="text" type="mmse4j_zh" indexed="true" stored="true"/>

5.验证

————————完————

6.高级配置

<fieldtype name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

</analyzer>

</fieldtype>

<fieldtype name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

</analyzer>

</fieldtype>

<fieldtype name="text_mmseg4j_maxWord" class="solr.TextField" positionIncrementGap="100">

<analyzer>

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/data0/SolrCloud/WordsConf/mmseg4j/words" />

</analyzer>

</fieldtype>

猜你喜欢

转载自limeng650419.iteye.com/blog/2300892

solr 中文分词配置

【Solr】中文分词配置

solr-中文分词配置

solr IKAnalyzer 搜索中文分词配置过程

Solr 7 配置中文分词器

Solr 6.6.0 配置IKAnalyzer中文分词

solr安装配置中文分词IK

Solr安装、使用、配置中文分词器

中文分词mmseg4j+solr 5.3.1配置

配置solr的schema.xml加入中文分词器

solr4.3之配置中文分词smartcn

关于solr配置IK中文分词后报500错

solr4.3之配置中文分词IK

solr4.6.0安装部署以及配置中文分词IKAnalyzer

solr环境配置、中文分词、数据库

solr与中文分词器的安装配置

Solr学习总结（八）IK 中文分词的配置和使用

Solr-4-配置中文分词器

Solr-4.10 配置中文分词器(IKAnalyzer)

Solr学习总结 IK 配置中文分词器

配置中文分词器 IK-Analyzer-Solr7

Solr7.5.0配置中文分词器IKAnalyzer

Solr - 中文分词器IK Analyzer的简介及配置

Apache Solr 4.9上配置IKAnalyzer中文分词插件

Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器

solr 中文单字分词

solr中文分词

solr中文分词的种类

solr中文分词的实现

SOLR配置默认的一元分词与安装主流的中文分词扩展

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)