アウトライン
A、elasticsearch6 ansj語入門
二、インストールelasticsearch6 ansjワード
三、elasticsearch6 ansjワードの設定
四、elasticsearch6 ansjワード使用
V.の概要
ansjを紹介
nsj_segトークナイザは、個人的には、オープンソース・ワードが最も強力な機能の最も豊富であると思います。ansj_segセグメンテーションアルゴリズムインテリジェントictclas科学的かつ効率的なの中国科学院に基づきます。それはすでにJavaのバージョンについてictclasのが、はるかに強力な達成するためにそれを使用してからansj_segですが、細部および機能の多くは、インデックスと自然言語解析で考慮されている非常に優れた性能を持っています。代表語のictclasとしてansj_segが実装されたアルゴリズム。
ansj説明プラグの単語
の構成ansj es5.0バージョンがでelasticsearch.ymlで設定される前に
es5.0とバージョンの後に、プロファイルの方法をサポートしていない、サポートAPIセットへの唯一の方法
ansjポイントのインストール・ワードのプラグイン
のダウンロードの単語のプラグイン
からダウンロードするには、オープンソースのWebサイトをgithubの
https://github.com/NLPchina/elasticsearch-analysis-ansj/releases/download/v6.2.2/elasticsearch-analysis-ansj-6.2.2.0-release.zipを
二ansjワードインストール
ステップは、構成ワードウィジェット
1のzipパッケージはes_home /プラグインにコピーし、ダウンロードした
カレントディレクトリに2ジップエキス
3 zipパッケージの前にES-ansjが削除されます。
4再起動ES(SO負荷構成へとして単語、単語の能力は、まだこの時及び使用時に活性化されないように)
三ansjワードの設定
プラグイン構成ansjワードの方法によって提供されるAPIのES
1は、インデックスサービスオフ最初のターン(ワード構成が動的設定をサポートしていないが、インデックスサービスをオフにしなければならないことだけ単語の後に設定することができる)
カール-XPOST「127.0.0.1:9200/_all/_close」
2提供ワードモード
カール-XPUT「http://127.0.0.1:9200/_all/_settings?preserve_existing=true」-H「種類-コンテンツ:ファイルアプリケーション/ JSON」-d「{
「index.analysis.analyzer.default。 「:」index_ansj」タイプの
『index.analysis.analyzer.default_search.type『:』query_ansj』
} '
メソッドの4ワードの説明、
見出し語
分割結果の全てを分離することができる限り、再現率を改善しよう
リコール
公式の定義:正しいコンテンツエントリの検索結果が文書のために、関連するすべてのコンテンツ項目の割合を占め
解釈方言を:なるべくヒット率ヒットという、探し出してきたように、何かを探し出されるべき
検索語を
インデックス付きの単語である必要がありますされますサブセットの正確さを保証しようとする
の5精度
コンテンツアイテムを検索し、検索結果に正しいコンテンツ項目の割合占め:公式の定義を
解釈方言:より良いため、コンテンツ項目のうち、検索することを確実にするためにしてみてください。
6オープンインデックスサービスは、外部の正常な検索を提供
カール-XPOST「127.0.0.1:9200/_all/_open」
7 ansjワードプラグインが正常にインストール試験後
ウェブのHTTPリクエストインターフェース仕様
/ _cat / ansj:単語行う
すべての設定:/ _cat / ansj /設定
/ _ansj /フラッシュ/設定:リフレッシュ、すべての構成
/ _ansj /フラッシュ/ DIC:すべて更新辞書を。ユーザー定義の辞書、無効辞書、シソーラス、辞書あいまいさを含む、CRF
のWeb HTTPリクエスト・インタフェース・テスト
http://127.0.0.1:9200/_cat/ansj?text=新年の長春市長のスピーチ&タイプ= index_ansj
問題発見
インデックスのセグメント化は、それが直接、検索結果に影響を与えますが、ポイントは十分に詳述しない、満足のいくものではありません。
主な理由:ES-ansjワードのオープンソース版は完全シソーラス原因とロードされていない、バグが配置されています。
ソリューション
、そのほとんどの現在の構成ファイルとサブシソーラスで、ansjワードの最新バージョンをダウンロード
ダウンロード-1ます。https://github.com/NLPchina/ansj_seg/releases、あなたは最新バージョンを見つけることができます
半分はダウン低下しなかった理由は、私は知りません。あなただけのgitでファイルをダウンロードする必要があります。
Bは、ライブラリディレクトリとファイルがansj_library.properties取得解凍、後に
Cを、ルートディレクトリes_homeのにコピーされた二つのファイル、上記の
D、ESは効果取るために再起動し
たウェブのHTTPリクエスト・インターフェースの再テストを、まだ先の例のように、あなたはインデックスを作成し、単語の検索の所望の効果を得ることができ、比較してください。
四ansjワード使用
ES-ansjプラグインについて説明
インデックスヘッドにより、およびマッピング構造の新しいタイプ、およびフィールドを指定するには、関連するワードが設定
天然構造
カール-XPUTます。http:// localhostを:9200 /テスト-H「のContent-Type:アプリケーション/ JSONを」 -d「{
"設定":{
"number_of_shards" :. 1、
"number_of_replicas":0
}、
"マッピング":{
"学生":{
"_all":{ "有効":偽}、
"プロパティ":{
"名前":{ "タイプ": "テキスト"、 "アナライザー": "index_ansj"、 "search_analyzer": "query_ansj"}、
"クラス名":{ "タイプ": "テキスト"、 "分析": "index_ansj"、 "search_analyzer": "query_ansj"}、
"性別":{ "タイプ":「テキスト"}
}
}
}
}」
通过ヘッド复合页面发送请求
{
"設定":{
"number_of_shards":1、
"number_of_replicas":0
}、
"マッピング":{
"学生":{
"_all":{ "有効":偽}、
"プロパティ":{
"名前":{ "タイプ": "テキスト"、 "アナライザー": "index_ansj"、 "search_analyzer": "query_ansj"}、
"クラス名":{ "タイプ": "テキスト"、 "分析": "index_ansj"、 "search_analyzer": "query_ansj"}、
"性別":{ "タイプ":「テキスト"}
}
}
}
}
通过ヘッド向指定索引名称及其指定的入力数据一条新建
原生ストラクチャです
カール-XPUT「のhttp:// localhostを:9200 /テスト/学生/ 1プリティ'-H' Content-Typeの:?アプリケーション/ jsonの'-d'
{
"名": "張Ziqiang"、
"クラス名": "コンピュータ技術1クラスの技術"、
"性別": "少年
} '
の要求は、複合ヘッドのページを経由して送信され
、{
『名』: 『Zhangzi江』、
『クラス名』: 『コンピュータ技術技術クラス1』、
『性別』: 『男の子』
}
//最初の2
{
「名前」:「ジョン・ドウ」、
「クラス名」:「コンピュータ技術のクラスの技術2」、
「性別」:「男の子」
}
//最初の3
{
「名」:「ザン・メングメン」、
"クラス名「:」ソフトウェアエンジニアリングクラス3」、
『性別『:』女の子』
}
ファイブの概要
1つのワードのワードブレーカ
単語分割は、Javaの、中国語の単語部品実装辞書ベースのセグメンテーション・アルゴリズムの様々な提供し、曖昧さを排除するためにnグラムモデルを使用します。正確に文字、数字、日付、時間を識別することができ、その他の数量は、地名、組織名やその他の未知の単語を識別することができます。Luceneと、Solrの、ElasticSearchプラグを提供しながら。
を参照してくださいする可能性があります。
- http://my.oschina.net/apdplat/blog/228615?p=1 単語のための単語の非常に詳細な紹介の内部
- 単語単語のホーム・ページ:https://github.com/ysc/word
Ansj 2
ansj_seg言葉は個人的には、オープンソース・ワードが最も強力な機能の中で最も豊富であると考えています。ansj_segセグメンテーションアルゴリズムインテリジェントictclas科学的かつ効率的なの中国科学院に基づきます。それはすでにJavaのバージョンについてictclasのが、はるかに強力な達成するためにそれを使用してからansj_seg、と著者自家製の個人的な使用ではあるが、細部および機能の多くが考慮され、インデックスと自然言語解析であります優れた性能。ictclasが出演者に代わって実装されたアルゴリズムとしてansj_seg語を使用することができます。
を参照してくださいする可能性があります。
- ansj語ホームページ https://github.com/NLPchina/ansj_seg
- ansj_seg中国語の単語のインスタンス http://www.blogchong.com/post/78.html
IKAnalyzer 3
IKAnalyzerは、ワードブレーカを使用することは非常に簡単で、それがより一般的である「最も肯定的な反復きめ細かいセグメンテーションアルゴリズム」を使用して。初心者の一般的な学習のLuceneやSolrのは、これを使用します。利点オープンソース(すべてのアルゴリズムは、当業界で知られた後、実際には、Javaの言葉は、ほとんどがオープンソースである)、軽量であり、現在の状況ははるかにバグではありませんが、ソースコードは簡単に理解するために、2番目の開発を行うにも顔にも非常に簡単ですSolrの/ Luceneのバージョンの更新は、少しだけ自分のクラスは一般の下で達成することができます変更します。欠点は、あまりにもシンプルな馬鹿は、単に単語辞書に応じて設定することが、全く知性、でも「着物」、「サーバーと」この古いが破壊されない茎がないことです。IKanalyzerセグメンテーションの2種類があります。
ik_max_word:テキストが最もきめ細かな分割を行います、我々はすべての可能な組み合わせを排出します。
ik_smart:分割は、最も粗粒を行います。
ダム単語としてIKanalyzerは、代表的な外観です。
を参照してくださいする可能性があります。
- IKanalyzerコードワード:http://git.oschina.net/wltea/IK-Analyzer-2012FF/tree/master
Mmseg4j。4
中国語MMSeg志ハオツァイアルゴリズム実装セグメンタとアナライザでmmseg4jはTokenizerFactoryののLuceneのSolrを達成するとのLuceneとSolrのの使用を容易にします。単純および複合、前方最大マッチングに基づいています:二つの方法MMSegセグメンテーションアルゴリズムがあります。コンプレックスプラス4つのルールは見当違い。
を参照してくださいする可能性があります。
5 jcseg
jcsegワードの使用はmmsegアルゴリズムとFMMアルゴリズムは、この言葉はトークナイザmmsegアルゴリズム外観のように、同じ兄弟mmseg4jドア部門よりも多くのことを多くのansj_seg場所、インテリジェントな、人道的な、個人的な感覚体験の代表者に似ています。
を参照してくださいする可能性があります。
- jcsegコード: http://git.oschina.net/lionsoul/jcseg
リファレンス
https://blog.csdn.net/erliang20088/article/details/81627737
https://blog.csdn.net/liyantianmin/article/details/59485799
https://www.cnblogs.com/chenmc/p/9525163.html