028 ElasticSearch ---- --- 03全文検索技術の基本詳細

1.IKトークナイザ

(1)インストール

 

中国語の単語の効果を得ることができIKワードを使用します。
IKワードブレーカーをダウンロードします(Githubの住所ます。https://github.com/medcl/elasticsearch-analysis-ik)


、zipファイルをダウンロードし、プラグインES IKのインストールディレクトリ下のディレクトリにファイルを解凍してコピーする(注意:バージョンIKがelasticsearchと同じでなければなりません

そして、elasticsearchを再起動します。

ワードテスト結果:
送信:POSTはlocalhost:9200 / _analyze
{「テキスト」、「分析」:「ik_max_word:「春クラウド戦闘テストワードを、コンテンツが試験の背後にあります」 」}

(2)二つの方法ワードで

ik_max_wordとik_smartモード:IKワードは、二つのサブワードモードがあります。
<1> ik_max_word
テキストが行われている最高級の分割の粒度を、スプリット「中国の人民共和国、中国の人々 、中国、「中国人民共和国の大ホール」になり、このような
中国の人民共和国、中華人民共和国、市役所総会、ホールや他の用語。
<2> ik_smartが
行います最も粗い粒度の解像度を、このようになる「中華人民共和国の大ホール」として、中国の人民共和国、大ホールを分割します。

(3)カスタムシソーラス

あなたは単語がいくつかの独自の言葉をサポートしたい場合は、シソーラスをカスタマイズすることができます。
IKワードブレーカーはmain.dicファイル、このファイルの辞書ファイルが付属しています。

my.dicファイル(ディレクトリの一番上の新しいノートファイル形式UTF-8 組み込みtxtファイルエディタを使用していない、editplus編集ファイルを使用して、UTF-8 BOMを選択しない)
:あなたは語彙をカスタマイズできる
ような定義など:
設定ファイルは、my.dicです

 

再起動ES、ワードテスト結果:
送信:POSTはlocalhost:9200 / _analyze
{「テキスト」、「分析」:「ik_max_word:「春クラウド戦闘テストワード、コンテンツが試験の背後にあります」 」}

 

おすすめ

転載: www.cnblogs.com/luckyplj/p/11593433.html