elasticsearchのIKパーサ

IKパーサ

 

1. IKパーサ

IK分析プラグインは、カスタマイズされた辞書をサポートし、elasticsearchにLuceneのIKアナライザー(http://code.google.com/p/ik-analyzer/)を統合します。

アナライザー:ik_smart、ik_max_word、トークナイザ:ik_smart、ik_max_word

 

ドキュメント:https://github.com/medcl/elasticsearch-analysis-ik

 

1.1。ダウンロードして設定をインストール

 

公開ページhttps://github.com/medcl/elasticsearch-analysis-ik/releases

ここで、対応するバージョンは7.3.1、ダウンロードで検索。

CDあなた-ES-ルート/プラグイン/ &&ます。mkdir IK#ディレクトリIKを作成します。

I到あなた-ES-ルート/プラグイン/ I#解压をフォルダに解凍してプラグイン

インストール

に抽出するのIKディレクトリ

 

テスト

RV = es.cat.plugins(V =真)

Q.(RW)

名前コンポーネントのバージョン

**解析I-7.3.1

 

2.試験セグメンテーション効果

コード

#分詞

デフTEST1():

    #Ikのワードテスト結果

    D3 = {

    「テキスト」:「世界が認識することができますされ、知識は、開発の弁証法的プロセスです。」

    、「アナライザ」:「標準」

    }

    #トークナイザ

    ANA = [ "標準"、 "ik_smart"、 "ik_max_word"]

    ANAで_について:

        D3 [ "分析"] = _

        RV = es.indices.analyze(本体= D3、形式= "テキスト")

        プリント(_ + "単語結果:"、[X RVにおけるxについて] [ "トークン" [ "トークン"]])#D1のセグメンテーション結果

 TEST1()

結果:

標準のセグメンテーション結果:[ '世界'、 'セクター'、 'A'、 '知っている'、 '認識' 'による'、 'と'、 '利用可能'、 ''、 '知っている'、 '認識'、 ' 「」「」「」議論「」カード「」送信「」開発「」「」以上「」離れ「]

ik_smart単語結果:[ '世界'、 'はい'、 'できる'、 'で、 '理解'、 '理解'、 'の' 'はい'、' '' 弁証法 '' 開発 '' 「」プロセス]

ik_max_word単語結果:[ '世界'、 'はい'、 'できる'、 'で、 '理解'、 'の'、 '理解'、 'はい'、' '' '' ''弁証法「」開発「」「」プロセス]

 

おすすめ

転載: www.cnblogs.com/wodeboke-y/p/11562837.html