配置solr的schema.xml加入中文分词器 - 代码天地

配置solr的schema.xml加入中文分词器

企业开发 2018-05-12 02:18:53 阅读次数: 0

solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中，打开readme.txt，可以看到：

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如：

<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>

dicPath 指定词库位置（每个MMSegTokenizerFactory可以指定不同的目录，当是相对目录时，是相对 solr.home 的目录），mode 指定分词模式（simple|complex|max-word，默认是max-word）。
[/color]

这里的dicPath是词库位置目录，相对于solr.home目录。
所以要在solr/home目录中建立一个dic文件夹，把词库文件放进去。

最后的dicPath是绝对路径。没有的话就设置为dic即可

2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。

3. 打开http://localhost:8080/solr/admin/analysis.jsp
选择type，输入上面的fieldType name="xx"的xx值。

输入中文就可以进行分词了。

4. 设置field。
找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
把type="text_general"修改为textComplex,那么我们建立的名为title的field，就会使用中文分词了。

猜你喜欢

转载自alleni123.iteye.com/blog/2047553

配置solr的schema.xml加入中文分词器

Solr 7 配置中文分词器

solr schema.xml配置总结

SOLR企业搜索平台三（schema.xml配置+IK Analyzer分词）

Solr schema.xml 详解

Solr schema.xml文件

Solr安装、使用、配置中文分词器

solr与中文分词器的安装配置

Solr-4-配置中文分词器

Solr-4.10 配置中文分词器(IKAnalyzer)

Solr学习总结 IK 配置中文分词器

配置中文分词器 IK-Analyzer-Solr7

Solr7.5.0配置中文分词器IKAnalyzer

Solr - 中文分词器IK Analyzer的简介及配置

Solr（三）schema.xml配置文件详解

Solr的Schema.xml配置文件内容详解

Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器

solr 的managed-schema配置详解-(旧版solr的schema.xml)

Mycat的schema.xml配置

Solr配置IK分词器

solr配置IK分词器报错

Solr配置Ikanalyzer分词器

Solr IK分词器配置

Solr中IK分词器的配置

solr schema.xml Field属性详解

solr schema.xml 字段解析

Solr----3、solr7.2.0配置IKAnalyzer和自带的中文分词器

solr（二）：Solr配置中文分词器IKAnalyzer2012FF_u1

Apache Solr schema.xml及solrconfig.xml资料中文注解

Apache Solr schema.xml及solrconfig.xml文件中文注解

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)