Elasticsearch学习笔记6: 同义词搜索实现 - 代码天地

Elasticsearch学习笔记6: 同义词搜索实现

服务端 2018-05-02 11:27:58 阅读次数: 3

es的同义词搜索功能通过自定义分析器实现

我们知道一个分析器就是在一个包里面组合了三种函数的一个包装器，三种函数按照顺序被执行:

char_filter 如：emoticons， html_strip等
tokenizer 如：standard， ik_smart等
filter 如：lowercase，english_stop等

char_filter 用于分词前对原搜索的句子进行处理 tokenizer 用于将搜索的句子分成多个词组 filter 用于处理tokenizer输出的词组，比如删除某些词，修改某些词，增加某些词

实现同义词搜索的原理是，自定义filter，处理tokenizer输出的待搜索词组时，取出其中词的同义词，加入到待搜索的词组中。

创建分析器：

PUT /synonym
{
	"settings": {
		"analysis": {
			"filter": {
	            "word_sync": {
	                "type": "synonym",
	                "synonyms_path": "analysis/synonyms.txt"
	            }
	        },
	        "analyzer": {
	            "ik_sync_smart": {
	                "filter": [
	                    "word_sync"
	                ],
	                "type": "custom",
	                "tokenizer": "ik_smart"
	            }
	        }
		}	
	}
}

上面的例子在名为synonym的index下面创建了个名为ik_sync_smart的分析器，改分析器的tokenizer为ik_smart, filter为word_sync. word_sync是自定义filter，这个filter的type是synonym，synonyms_path是指定的同义词词典的路径，这个路径在config下面，所以我们需要在config路径下面增加analysis目录，里面增加synonyms.txt文件

synonyms.txt文件的格式为每行为一组同义词，每组的同义词格式由如下两种：

番茄,西红柿
番茄,西红柿 => 西红柿

第一种情况下，无论索引番茄或者西红柿，分析器分析结果的词组为［'番茄', '西红柿'］

第二种情况下，无论索引番茄或者西红柿，分析器分析结果的词组为［'西红柿'］

可以通过

GET /synonym/_analyze?analyzer=ik_sync_smart&text=注册

查看同义词结果是否符合需求

扫描二维码关注公众号，回复： 98226 查看本文章

然后设置索引数据的mapping时，指定对应搜索字段的analyzer为自定义的ik_sync_smart即可。

猜你喜欢

转载自my.oschina.net/u/2299936/blog/1800461

Elasticsearch学习笔记6: 同义词搜索实现

ElasticSearch学习笔记-同义词记录

Elasticsearch 同义词配置

elasticsearch 中文分词配置同义词

Elasticsearch 使用同义词二

Elasticsearch之近义词/同义词的使用

Elasticsearch5.3.1 IK分词，同义词/联想搜索设置

Oracle 复习笔记之同义词

IK如何实现同义词搜索

在 Elasticsearch 中更新同义词：同义词 synonyms API 简介

大数据学习[15]:elasticsearch之同义词

Oracle 学习笔记 12 -- 序列、索引、同义词

Oracle学习笔记视图，索引，序列，同义词

elasticsearch-构建同义词、近义词查询

Elasticsearch：词干、Shingles 和同义词过滤器

Elasticsearch (ES) 搜索引擎: 文本搜索：分析器/分词器、同义词/停用词、拼音搜索、高亮显示、拼写纠错

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5中文同义词实现

Lucene笔记19-Lucene的分词-实现自定义同义词分词器-实现分词器

Oracle笔记（十三）视图、同义词、索引

Oracle 笔记（十）、视图、同义词、序列

oracle的学习3-师徒&序列&同义词&索引

数据库同义词的理解学习

Lucene笔记18-Lucene的分词-实现自定义同义词分词器-思路分析

Solr 同义词搜索 synonyms

Lucene笔记20-Lucene的分词-实现自定义同义词分词器-实现分词器（良好设计方案）

oracle学习笔记（十四）数据库对象索引视图序列同义词

Oracle数据库学习笔记（五 —— 函数、视图、索引、同义词）

Elasticsearch7.4.2本地同义词配置（使用Head插件）

【ES】Elasticsearch：词干、Shingles 和同义词过滤器

elasticsearch遇到的问题(一) 底层修改同义词典synonyms.txt未生效，将同义词加到分词器也未生效

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)