solr英文应用的基本分词器和过滤器配置 - 代码天地

solr英文应用的基本分词器和过滤器配置

企业开发 2018-05-14 00:17:55 阅读次数: 2

英文应用分词器和过滤器一般配置顺序

索引（index）：

    1：空格 WhitespaceTokenizer
    2：过滤词(停用词，如：on、of、a、an等) StopFilter
    3：拆字WordDelimiterFilter
    4：小写过滤LowerCaseFilter
    5：英文相近词EnglishPorterFilter
    6：去除重复词RemoveDuplicatesTokenFilter

查询(query)：（首先也是加入分词方法）

    1：查询同义词 SynonymFilter
    2：过滤词 StopFilter
    3：拆字 WordDelimiter
    4：小写过滤 LowerCaseFilter
    5：英文相近词 EnglishPorterFilter
    6：去除重复词 RemoveDuplicatesTokenFilter

示例配置如下：

<fieldtype name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldtype>

这样配置以后，字段类型为“text”的就会有以上的一些处理，如下，name就会有以上的处理了。

<field name="name" type="text" indexed="true" stored="true" multiValued="true"/>

更多的过滤器配置可以参照solr wiki：http://wiki.apache.org/solr/FrontPage

猜你喜欢

转载自kobe-hz.iteye.com/blog/1828012

solr英文应用的基本分词器和过滤器配置

lucene 的分析器(analyzer)与分词器(tokenizer)和过滤器(tokenfilter)

Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器（Tokenizer）、词元过滤器（Token Filter

复习:solr配置分词器和业务字段

Elasticsearch的分析过程,内置字符过滤器、分析器、分词器、分词过滤器（真是变态多啊！美滋滋）

Solr 7 配置中文分词器

Solr配置IK分词器

solr配置IK分词器报错

Solr配置Ikanalyzer分词器

Solr IK分词器配置

Solr中IK分词器的配置

集成分词器-----solr自带分词器和IK分词器对比

基于solr7.4入门学习一【solr的基本概念和用法、以及如何下载运行solr,配置中文分词器等】

ElasticSearch使用ik中文分词器集成html_strip网页标签过滤器

Solr----3、solr7.2.0配置IKAnalyzer和自带的中文分词器

JavaWeb中监听器+过滤器+拦截器区别、配置和实际应用

搭建solr服务器和IK分词器配置

SpringBoot之过滤器配置和应用

solr（2）配置分词器，配置定义域

Solr5.1+Jcseg分词器安装部署(中英文同义词、停止词配置)

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

Windows下面安装和配置Solr 4.9 支持中文分词器

Solr服务配置业务域和中文分词器

solr7.4 配置ikanalyzer和自带的中文分词器

Solr技术配置，以及数据导入和分词器的使用

springboot配置过滤器和拦截器

Servlet初始配置监听器和过滤器

Servlet监听器和过滤器的配置及使用

Solr安装、使用、配置中文分词器

Solr多核心及分词器（IK）配置

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)