ElasticSearchスタディノート(3)-ビジュアルインターフェイスKibanaおよびES中国語の単語セグメンテーション構成

最初のように習慣を身につけてから見てください!!!

序文

前回のブログでは、ES安装と基本增删改查について簡単に説明しましが、その前に検索操作を変更するための追加と削除について説明しましたが、ポイントはビジュアルインターフェイスKibanaのインストール方法を教えることです。ここでもお話しください。

ESの中国語のセグメンテーションの問題もあります。詳細については、ESに関する私の最初のブログを参照してください。その中で、ES検索アルゴリズムの重要な原則を詳細に説明しました。このため、(倒排索引)ESの中国語の単語も構成する必要があります。セグメンテーション。

ビジュアルインターフェースKibana

Mysqlデータベースを使用するときは、Navicatや他のデータベースなどの視覚化ツールを使用している必要があります。明らかにMysqlにあり、ESにある必要があります。ES視覚化ツールはKibanaと呼ばれます。その機能は、実際にはNavicatの機能に似ています。また、ES内の各ノードの情報とノード内の関連データをより直感的に観察できるようになります。

Kibanaの一般的な役割を理解した後、Kibanaのインストール方法を見てみましょう。

  • アップロードして解凍します

    cd /opt/es
    tar -zxvf kibana-6.3.1-linux-x86_64.tar.gz
    

    このプロセスは長くなります

    ファイルが大きいということではなく、ファイルの数が比較的多いためです。

ここに画像の説明を挿入

  • kibanaでES情報を構成する

    vi kibana.yml
    

ここに画像の説明を挿入
クラウドサーバーの場合は、ESがアドレス入力するとき以前は異なり、回線上のサーバーの公网アドレスを入力するアドレスアクセスします配置ES外网

保存して終了

  • 启动kibana

    cd ../bin
    nohup ./kibana &
    

ここに画像の説明を挿入

だから私たちのキバナが始まりました

このとき、アドレスバーのKibanaページを確認しましょう。

IP地址:5601

Kibanaのページにアクセスできます

ここに画像の説明を挿入

そのようなページを見ることは、私たちのKibanaが持っていることを意味します成功启动并且成功连接到我们的服务器的ElasticSearch了

そして、これまでのすべての操作は、このインターフェイスで実行されます。
ここに画像の説明を挿入

ES中国語の単語セグメンテーション

前に話したとき、ESアルゴリズムの内部を通して倒排索引実行する方法であり、最初のステップについて話すときは、分词処理されたデータベースに格納されたコンテンツの最初の転置インデックスであるため、今は必要です。 ESの単語セグメンテーション操作が正常に実行できるかどうかをテストします。

まず、ESによる英語のセグメンテーションがどのようになっているのかをテストしてみましょう。次の図から、ESによる英語のセグメンテーションが完全に可能であることがわかります。

ここに画像の説明を挿入
ただし、後で操作するデータは間違いなく中国語であることが明らかであるため、ESが中国語を認識できるかどうかをテストする必要があります。

ここに画像の説明を挿入

実行後、ESは中国語の単語セグメンテーションを認識できないことがわかりました。彼は中国語を単一の文字の集合と見なすことができ词语この概念を理解できません。単語を正しく認識できないため、関連する中国語の単語セグメンテーションプラグインを構成する必要があります。

IKトークナイザーをESプラグインディレクトリにアップロードする必要があります。ここでは、プラグインディレクトリがプラグインの保存専用であることに注意する必要があります。その後、次のことに注意する必要があります。プラグインディレクトリの下には単一のディレクトリがあります。ウィジェットを識別するために、ウィジェットは複数のフォルダーを解凍できず、挿入物を含む必要が一个单个的文件夹あり所有配置信息種類を指定できない多层目录嵌套、それらを識別できない場合、特定の解凍形式は次の形式である必要があります。

ここに画像の説明を挿入

この形式は正しい形式です。

解凍が完了したら、プラグインを有効にするためにESを再起動する必要があります。
ここに画像の説明を挿入

ESが再起動したら、トークナイザーが正常に使用できるかどうかを確認しましょう。インストールしたトークナイザープラグインは、IKと呼ばれるトークナイザープラグインです。このプラグインには、2種類の文法分析があります。1つはik_smartですik_max_word

ik_smartより単純なトークナイザーです

ik_max_wordより強力な単語セグメンターです

ここでは、次の例でそれを見ることができます。

これは私たちの言葉が指定されたik_smartセグメンテーション結果です:

ここに画像の説明を挿入

これは私たちの言葉が指定されたik_max_wordセグメンテーション結果です:

ここに画像の説明を挿入

以上の結果を比較すると、我々は実際より明白であることを見つけることができますik_max_wordワードセグメンタの効果がより強力であること。彼は複数の連続した単語に文を壊すだけでなく、言葉のように「中国」、彼はまた、それができます「中国語、中国語、中国語」の3つの単語に分解されます。このようにして、単語のセグメンテーション効果をより適切に実現できます。

単語のセグメンテーションを理解した後、単語のセグメンテーション結果の各属性の意味を見てみましょう。

ここに画像の説明を挿入

現時点では、なぜこのような分詞の結果を生成する必要があるのか​​、誰もがもう一度言わなければならないかもしれません相关性算分。これは前に述べた概念です。この相関計算では分詞がどこに現れるかを知る必要があるかもしれないので、合計で数回など、相関スコアの結果に直接影響するため、単語のセグメンテーション結果は次のようになります。

このようにして、ES中国語の単語セグメンテーションが構成されました。

独創性は簡単ではなく、コードワードも簡単ではありません。それがあなたに役立つと思うなら、私の公式アカウントに従うことができます、新参者はあなたのサポートが必要です!!!

ここに画像の説明を挿入

あなたがそれを見ないなら、あなたはよく見えます!

見続けてください、あなたはよく見えます!

おすすめ

転載: blog.csdn.net/lovely__RR/article/details/112175763