1.IKトークナイザ
(1)インストール
中国語の単語の効果を得ることができIKワードを使用します。
IKワードブレーカーをダウンロードします(Githubの住所ます。https://github.com/medcl/elasticsearch-analysis-ik)
、zipファイルをダウンロードし、プラグインES IKのインストールディレクトリ下のディレクトリにファイルを解凍してコピーする(注意:バージョンIKがelasticsearchと同じでなければなりません)
そして、elasticsearchを再起動します。
ワードテスト結果:
送信:POSTはlocalhost:9200 / _analyze
{「テキスト」、「分析」:「ik_max_word:「春クラウド戦闘テストワードを、コンテンツが試験の背後にあります」 」}
(2)二つの方法ワードで
ik_max_wordとik_smartモード:IKワードは、二つのサブワードモードがあります。
<1> ik_max_word
テキストが行われている最高級の分割の粒度を、スプリット「中国の人民共和国、中国の人々 、中国、「中国人民共和国の大ホール」になり、このような
中国の人民共和国、中華人民共和国、市役所総会、ホールや他の用語。
<2> ik_smartが
行います最も粗い粒度の解像度を、このようになる「中華人民共和国の大ホール」として、中国の人民共和国、大ホールを分割します。
(3)カスタムシソーラス
あなたは単語がいくつかの独自の言葉をサポートしたい場合は、シソーラスをカスタマイズすることができます。
IKワードブレーカーはmain.dicファイル、このファイルの辞書ファイルが付属しています。
my.dicファイル(ディレクトリの一番上の新しいノートファイル形式UTF-8 (組み込みtxtファイルエディタを使用していない、editplus編集ファイルを使用して、UTF-8 BOMを選択しない)
:あなたは語彙をカスタマイズできる
ような定義など:
設定ファイルは、my.dicです
再起動ES、ワードテスト結果:
送信:POSTはlocalhost:9200 / _analyze
{「テキスト」、「分析」:「ik_max_word:「春クラウド戦闘テストワード、コンテンツが試験の背後にあります」 」}