IKパーサ
1. IKパーサ
IK分析プラグインは、カスタマイズされた辞書をサポートし、elasticsearchにLuceneのIKアナライザー(http://code.google.com/p/ik-analyzer/)を統合します。
アナライザー:ik_smart、ik_max_word、トークナイザ:ik_smart、ik_max_word
ドキュメント:https://github.com/medcl/elasticsearch-analysis-ik
1.1。ダウンロードして設定をインストール
公開ページhttps://github.com/medcl/elasticsearch-analysis-ik/releases
ここで、対応するバージョンは7.3.1、ダウンロードで検索。
CDあなた-ES-ルート/プラグイン/ &&ます。mkdir IK#ディレクトリIKを作成します。
I到あなた-ES-ルート/プラグイン/ I#解压をフォルダに解凍してプラグイン
インストール
に抽出するのIKディレクトリ
テスト
RV = es.cat.plugins(V =真)
Q.(RW)
名前コンポーネントのバージョン
**解析I-7.3.1
2.試験セグメンテーション効果
コード
#分詞
デフTEST1():
#Ikのワードテスト結果
D3 = {
「テキスト」:「世界が認識することができますされ、知識は、開発の弁証法的プロセスです。」
、「アナライザ」:「標準」
}
#トークナイザ
ANA = [ "標準"、 "ik_smart"、 "ik_max_word"]
ANAで_について:
D3 [ "分析"] = _
RV = es.indices.analyze(本体= D3、形式= "テキスト")
プリント(_ + "単語結果:"、[X RVにおけるxについて] [ "トークン" [ "トークン"]])#D1のセグメンテーション結果
TEST1()
結果:
標準のセグメンテーション結果:[ '世界'、 'セクター'、 'A'、 '知っている'、 '認識' 'による'、 'と'、 '利用可能'、 ''、 '知っている'、 '認識'、 ' 「」「」「」議論「」カード「」送信「」開発「」「」以上「」離れ「]
ik_smart単語結果:[ '世界'、 'はい'、 'できる'、 'で、 '理解'、 '理解'、 'の' 'はい'、' '' 弁証法 '' 開発 '' 「」プロセス]
ik_max_word単語結果:[ '世界'、 'はい'、 'できる'、 'で、 '理解'、 'の'、 '理解'、 'はい'、' '' '' ''弁証法「」開発「」「」プロセス]