elasticsearch 拼音分词(elasticsearch-analysis-pinyin)


elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

官网:https://github.com/medcl/elasticsearch-analysis-pinyin

*****************************

安装pinyin分词

进入容器,在线安装

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip

查看分词插件

      

*****************************

pinyin分词介绍

pinyin插件提供:analyzer:pinyin、tokenizer:pinyin、token-filter:pinyin

**********************

相关参数

keep_first_letter:默认为true,刘德华==》ldh

keep_separate_first_letter:默认为false,刘德华==》l、d、h

limit_first_letter_length:限制first_letter的长度,默认为16

keep_none_chinese_in_first_letter:首字母中保存非中文,默认为true,刘德华2020==》ldh2020

keep_full_pinyin:默认为true,刘德华==》[liu、de、hua]

keep_joined_full_pinyin:默认为false,刘德华==》liudehua

keep_none_chinese:保存非中文字符,默认为true

keep_none_chinese_together:非中文字符在一起,默认为true,DJ音乐家==》[DJ、yin、yue、jia]

none_chinese_pinyin_tokenize:非中文分词,默认为true,liudehua==》liu、de、hua,需先开启keep_none_chinese、keep_none_chinese_together

keep_original:保存原始文本,默认为false

lowercase:非中文字符小写,默认为true

trim_whitespace:空白字符分隔,默认为true

remove_duplicated_term:移除重复的分词,默认为true,de的==》de

ignore_pinyin_offset:忽略拼音的偏移量,默认为true

 

*****************************

测试pinyin分词

        

        

发布了320 篇原创文章 · 获赞 91 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_43931625/article/details/104000371