弾性検索単語

分詞(分析):米国、イラク、混乱:テキストは、このような「?混乱の権利であるイラクで米国を残した」という言葉の結果の後などのプロセスをカットした単語、一連のに分割されています。

ワードブレーカ(アナライザ):実行elasticsearchのメインワードは、公式のワードは3つのレベルに分けられます。

文字フィルタ:ラテン語アラビア数字「0123456789」に、このようなヒンディー語、アラビア数字「0123456789」として、文書の元のテキストの処理、またはHTMLでの特殊文字のマークを削除し、文字フィルタは、ゼロ以上にすることができ取り付け順次適用。

トークナイザ:コア、単語に切断一定の規則に従って文書のオリジナルテキスト、トークナイザつのみ。

トークンフィルタ:トークナイザワード介して二次加工のために処理した後、そのような小文字、トークンフィルタとしては、オーダーコールに応じて、複数であってもよいです。

順3へのコール:文字フィルター--->トークナイザ--->トークンフィルター


図書 APIを分析

ESが効果をテストするために_analyzeワード文のエンドポイントを提供し、あなたは、フィールドを指定するか、明示的に単語の効果をテストするために、テキスト索引を入力することができます


図書 事前定義されたワードブレーカ

ESは、言葉は次のようである、デフォルトは(テーブル構造に類似)インデックスマッピングを作成するには、標準であるときに指定することができています

文書内のフィールドのそれぞれが、転置インデックスを作成しますので、あなたがマッピングインデックスを作成するとき、あなたはまた、各フィールドのワードブレーカを指定することができます

以下の簡単なテスト3つのトークナイザセグメンテーション効果が、残りはテストされていない空白シンプルなスタンダード、。

其余的分词器留给大家自己去测试,分词器的选择还是很重要的,按照你想要的切分方式切分文本得到的分词效果,既可以节省空间,又可以较好的解决搜索问题。尤其是中文,如何切分是个难点,比如文本"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"如果经过默认的分词器standard analyzer切分的话,会得到"中、国、驻、洛、杉、矶、领、事、馆、遭、亚、裔、男、子、枪、击、嫌、犯、已、自、首",这显然不是我们想要的分词效果;再比如,"乒乓球拍卖完了",是切分为"乒乓球/拍卖/完了"还是切分为"乒乓球拍/卖完了"。这里分享一个常用的中文分词器:ik_smart,它能较好的切分中文及英文文本,支持自定义词库,开源分词器 ik 的github:https://github.com/medcl/elasticsearch-analysis-ik,安装iksmart分词器如下:

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip

注意: 替换6.3.0为自己安装的elasticsearch版本,安装好后的ik插件在/elasticsearch/plugins/目录下,接着就可以直接指定分词器为ik_smart了,ik里面提供了ik_smart、ik_max_word,大家可以通过如下测试下两种分词器分词效果


図書 分词使用时机

1.创建或更新文档时候,es会对相应的文档数据进行分词处理,比如你某个索引字段类型为text,那么插入一条文档时候就会对该字段进行分词处理,维护该字段文本内容的倒排索引,这种我们成为索引时分词;

2.查询时候,会对你的查询文本进行分词,比如你要查询"苹果手机",则会分词为"苹果、手机"两个单词;

我们可以在创建索引时候指定该字段的分词器:

创建索引mapping时候指定该字段的分词器

也可以在查询时指定分词器:

查询时指定分词器

私たちは、あなたが言葉にしたい場合は、明らかフィールドを文書化する必要があり、時間の実際の使用、そうでない場合は、必要ないくつかのスペースを節約し、書き込み効率ESを向上させることができ単語、オフにし、だけでなく、通過する特定のワードブレーカー実際の生産の選択彼らの実際のテスト。


図書 前:弾性検索転置インデックス

図書 次へ:カスタムマッピング弾性検索

図書  参考:ES公式文書https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

公開された202元の記事 ウォンの賞賛571 ビュー147万+

おすすめ

転載: blog.csdn.net/fanrenxiang/article/details/85275609