最初のように習慣を身につけてから見てください!!!
序文
前回のブログでは、ES安装
と基本增删改查
について簡単に説明しましたが、その前に検索操作を変更するための追加と削除について説明しましたが、ポイントはビジュアルインターフェイスKibanaのインストール方法を教えることです。ここでもお話しください。
ESの中国語のセグメンテーションの問題もあります。詳細については、ESに関する私の最初のブログを参照してください。その中で、ES検索アルゴリズムの重要な原則を詳細に説明しました。このため、(倒排索引)
ESの中国語の単語も構成する必要があります。セグメンテーション。
ビジュアルインターフェースKibana
Mysqlデータベースを使用するときは、Navicatや他のデータベースなどの視覚化ツールを使用している必要があります。明らかにMysqlにあり、ESにある必要があります。ES視覚化ツールはKibanaと呼ばれます。その機能は、実際にはNavicatの機能に似ています。また、ES内の各ノードの情報とノード内の関連データをより直感的に観察できるようになります。
Kibanaの一般的な役割を理解した後、Kibanaのインストール方法を見てみましょう。
-
アップロードして解凍します
cd /opt/es tar -zxvf kibana-6.3.1-linux-x86_64.tar.gz
このプロセスは長くなります
ファイルが大きいということではなく、ファイルの数が比較的多いためです。
-
kibanaでES情報を構成する
vi kibana.yml
クラウドサーバーの場合は、ESがアドレスを入力するときに、以前とは異なり、回線上のサーバーの公网
アドレスを入力するアドレスにアクセスします。配置ES
外网
保存して終了
-
启动kibana
cd ../bin nohup ./kibana &
だから私たちのキバナが始まりました
このとき、アドレスバーのKibanaページを確認しましょう。
IP地址:5601
Kibanaのページにアクセスできます
そのようなページを見ることは、私たちのKibanaが持っていることを意味します成功启动并且成功连接到我们的服务器的ElasticSearch了
そして、これまでのすべての操作は、このインターフェイスで実行されます。
ES中国語の単語セグメンテーション
前に話したとき、ESアルゴリズムの内部を通して倒排索引
実行する方法であり、最初のステップについて話すときは、分词
処理されたデータベースに格納されたコンテンツの最初の転置インデックスであるため、今は必要です。 ESの単語セグメンテーション操作が正常に実行できるかどうかをテストします。
まず、ESによる英語のセグメンテーションがどのようになっているのかをテストしてみましょう。次の図から、ESによる英語のセグメンテーションが完全に可能であることがわかります。
ただし、後で操作するデータは間違いなく中国語であることが明らかであるため、ESが中国語を認識できるかどうかをテストする必要があります。
実行後、ESは中国語の単語セグメンテーションを認識できないことがわかりました。彼は中国語を単一の文字の集合と見なすことができ词语
、この概念を理解できません。単語を正しく認識できないため、関連する中国語の単語セグメンテーションプラグインを構成する必要があります。
IKトークナイザーをESプラグインディレクトリにアップロードする必要があります。ここでは、プラグインディレクトリがプラグインの保存専用であることに注意する必要があります。その後、次のことに注意する必要があります。プラグインディレクトリの下には単一のディレクトリがあります。ウィジェットを識別するために、ウィジェットは複数のフォルダーを解凍できず、挿入物を含む必要が一个单个的文件夹
あり所有配置信息
、種類を指定できない多层目录嵌套
か、それらを識別できない場合、特定の解凍形式は次の形式である必要があります。
この形式は正しい形式です。
解凍が完了したら、プラグインを有効にするためにESを再起動する必要があります。
ESが再起動したら、トークナイザーが正常に使用できるかどうかを確認しましょう。インストールしたトークナイザープラグインは、IKと呼ばれるトークナイザープラグインです。このプラグインには、2種類の文法分析があります。1つはik_smart
ですik_max_word
。
ik_smart
より単純なトークナイザーです
ik_max_word
より強力な単語セグメンターです
ここでは、次の例でそれを見ることができます。
これは私たちの言葉が指定されたik_smart
セグメンテーション結果です:
これは私たちの言葉が指定されたik_max_word
セグメンテーション結果です:
以上の結果を比較すると、我々は実際より明白であることを見つけることができますik_max_word
ワードセグメンタの効果がより強力であること。彼は複数の連続した単語に文を壊すだけでなく、言葉のように「中国」、彼はまた、それができます「中国語、中国語、中国語」の3つの単語に分解されます。このようにして、単語のセグメンテーション効果をより適切に実現できます。
単語のセグメンテーションを理解した後、単語のセグメンテーション結果の各属性の意味を見てみましょう。
現時点では、なぜこのような分詞の結果を生成する必要があるのか、誰もがもう一度言わなければならないかもしれません相关性算分
。これは前に述べた概念です。この相関計算では分詞がどこに現れるかを知る必要があるかもしれないので、合計で数回など、相関スコアの結果に直接影響するため、単語のセグメンテーション結果は次のようになります。
このようにして、ES中国語の単語セグメンテーションが構成されました。
独創性は簡単ではなく、コードワードも簡単ではありません。それがあなたに役立つと思うなら、私の公式アカウントに従うことができます、新参者はあなたのサポートが必要です!!!
あなたがそれを見ないなら、あなたはよく見えます!
見続けてください、あなたはよく見えます!