elasticsearch 拼音分词(elasticsearch-analysis-pinyin)
官网:https://github.com/medcl/elasticsearch-analysis-pinyin
*****************************
安装pinyin分词
进入容器,在线安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip
查看分词插件
*****************************
pinyin分词介绍
pinyin插件提供:analyzer:pinyin、tokenizer:pinyin、token-filter:pinyin
**********************
相关参数
keep_first_letter:默认为true,刘德华==》ldh
keep_separate_first_letter:默认为false,刘德华==》l、d、h
limit_first_letter_length:限制first_letter的长度,默认为16
keep_none_chinese_in_first_letter:首字母中保存非中文,默认为true,刘德华2020==》ldh2020
keep_full_pinyin:默认为true,刘德华==》[liu、de、hua]
keep_joined_full_pinyin:默认为false,刘德华==》liudehua
keep_none_chinese:保存非中文字符,默认为true
keep_none_chinese_together:非中文字符在一起,默认为true,DJ音乐家==》[DJ、yin、yue、jia]
none_chinese_pinyin_tokenize:非中文分词,默认为true,liudehua==》liu、de、hua,需先开启keep_none_chinese、keep_none_chinese_together
keep_original:保存原始文本,默认为false
lowercase:非中文字符小写,默认为true
trim_whitespace:空白字符分隔,默认为true
remove_duplicated_term:移除重复的分词,默认为true,de的==》de
ignore_pinyin_offset:忽略拼音的偏移量,默认为true
*****************************
测试pinyin分词