Elasticsearch安装ik中文分词器 - 代码天地

Elasticsearch安装ik中文分词器

其他 2021-01-24 10:23:50 阅读次数: 0

分词器顾名思义，就是对文本分词。目前es给我们提供了standard（对西方语言比较好），icu（对东南亚等地区），ik（中文）,还有一些不常用的如，Letter Tokenizer（对非字符切分），whitespace Analyzer（每当遇到whitespace分割）。

分词器种类:

Standard: 单字切分法，一个字切分成一个词。 (es默认分词器)
CJKAnalyzer: 二元切分法，把相邻的两个字, 作为一个词.
SmartChineseAnalyzer: 对中文支持较好, 但是扩展性差, 针对扩展词库、停用词均不好处理.
paoding`: 庖丁解牛分词器, 没有持续更新, 只支持到lucene3.0。
mmseg4`: 支持Lucene4.10, 且在github中有持续更新, 使用的是mmseg算法.
Whitespace分词器：去除空格，不支持中文，对生成的词汇单元不进行其他标准化处理。
language分词器：特定语言的分词器，不支持中文。
IK-analyzer: 最受欢迎的中文分词器。

安装IK-analyzer

下载ik中文分词器
解压到/usr/share/elasticsearch/plugins/ik目录

unzip elasticsearch-analysis-ik-7.9.3.zip -d /data/local/elasticsearch/9200/plugins/ik

在这里插入图片描述
3. 重启elasticsearch
4.测试分词效果

使用IK-analyzer

索引时用ik_max_word(细粒度)

#建立索引时使用ik_max_word分词
PUT _template/request_log
{
    
    
  "index": {
    
    
    "refresh_interval": "5s",
    "analysis": {
    
    
      "analyzer": {
    
    
        "ik": {
    
    
          "tokenizer": "ik_max_word"
        }
      }
    }
  }
}

单个字段设置分词器

 "字段名称": {
    
    
   "type":     "text",
   "analyzer": "ik_max_word"
}

在搜索时用ik_smart(粗粒度)

GET /request_log-app-2020.06.08/_search
{
    
    
  "query": {
    
    
    "match_phrase" : {
    
      
          "operation" : {
    
    
              "query" : "发货",
              "analyzer" : "ik_smart"
          }
      }
  }
}

相关命令

#测试分词结果
GET _analyze
{
    
    
  "analyzer": "ik_smart", //指定分词器	
  "text": ["要测试的字符串"]
}
#获取document中的某个field内的各个term的统计信息。
GET /索引/_termvectors/文档id
{
    
    
  "fields":["字段1"]
}

猜你喜欢

转载自blog.csdn.net/chen_cxl/article/details/111247546

Elasticsearch的ik中文分词器的安装

Elasticsearch安装中文分词器IK

ElasticSearch安装中文分词器 ik

Elasticsearch安装ik中文分词器

在elasticsearch中安装ik中文分词器

安装elasticsearch-analysis-ik中文分词器

ElasticSearch 6.5.4 安装中文分词器 IK和pinyiin

docker 安装ElasticSearch的中文分词器IK

Elasticsearch集群下安装IK中文分词器

es（elasticsearch）安装IK中文分词器

docker下elasticsearch安装ik中文分词器

ElasticSearch中文分词器-IK分词器的使用

Elasticsearch分词器-中文分词器ik

Elasticsearch 中文分词器IK

Elasticsearch(四) - IK中文分词器

Elasticsearch---中文分词器IK

ElasticSearch - 分词器介绍及中文分词器es-ik安装

本地elasticsearch中文分词器 ik分词器安装及使用

elasticsearch安装ik分词器

Elasticsearch下安装ik分词器

Elasticsearch 安装IK分词器插件

elasticsearch ik分词器安装

Elasticsearch安装使用IK分词器

elasticsearch–ik分词器的安装

ElasticSearch 安装IK分词器

Elasticsearch 安装 ik分词器

ElasticSearch 7.3.0安装IK分词器

IK中文分词器安装

ES ik中文分词器的安装

elasticsearch安装中文分词器插件smartcn 在安装ik分词器启动elasticsearch时报错

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)