jieba原理

、jieba紹介
jiebaライブラリは、シンプルで実用的な中国の自然言語処理サブシソーラスです。

jiebaワードは、言語モデル確率ワードに属しています。確率的言語モデルセグメンテーションタスクがある:完全なセグメンテーションようにP(S)最大得られたすべての結果にセグメント化方式Sを探します。

jiebaワードは3つのモードがサポートされています。

フルモード、文章中の単語のすべての単語にスキャンすることができ、非常に高速ですが、あいまいさを解決しません。
正確なモード、最も正確にカット宣告しようとすると、テキスト解析に合わせ、
検索エンジンのモデル、正確なモード再び長期セグメンテーションに基づいて、検索エンジンの単語に適したリコールを向上させます。
次に、我々は、この分割アルゴリズム理論解析のために行きました。

第二に、原則jiebaワード
1における効率的な走査接頭語辞書に基づいて、すべての可能な文字は、単語どこからなる有向非巡回グラフ(DAG)のような文を生成しました

 辞書トライ木を生成しながら1トライによれば、単語は含む、辞書を運ぶ各単語頻度(jiebaのdict.txtの発生数を変換する、20,000以上の単語があり、生成dict.txtバーが表示され、品詞の数(人民日報のコーパスと他のリソースベースのトレーニングが出ていた).trieは、単語グラフのツリー構造をスキャンし、トライ木が知られているが、トライ木に、これは20,000人以上の言葉でありますプレフィックスツリーは、それはそれは、彼らが同じプレフィックスを持つ手段として、あなたがトライを保存するために使用することができ、それは)高速検索速度の利点を持っている、言葉の前にいくつかの単語を言うことです。

2. DAG、人気の話を生成、dict.txt生成されたトライ木によると、ワードの文章を扱う、それはすべての可能な文のセグメンテーションを生成し、辞書与えられた辞書の操作に応じて文を実行することです。jieba DAGは、(N文の長さである)から、文の単語の開始位置に記録され、各辞書キーとしてN-1位置0を起動し、値は可能な単語を保持しているリストであります終了位置(単語辞書によって得られた、単語が位置+取得終了位置の長さを開始します)

2.単語頻度の組み合わせに基づいて、最大セグメントを見つけ、ダイナミックプログラミングパスの最大確率を探します

1.文中の単語を探す良い言葉(フルモードで単語リスト)をセグメント化する必要があり、ワード(数/総数)、そうでない場合(通常はいくつかの辞書に基づいて)単語の出現頻度を見つけに来て、単語の頻度の最低周波数は、辞書内の単語の頻度として登場置きます。

ここでは逆にあまりにも多くの形容詞ため、通常は、背後にある、多くの場合、背後にある中国文(右側)の焦点であるので、2(逆確率を右から左に最高刑を計算する動的計画法に基づく最大確率のパスを探しますトランクが故に右から左に計算され、正しい速度)が同様のRMM右、左から計算さよりも高い、P(NodeN)= 1.0、P(NodeN-1)= P(NodeN) * MAX(P(最後から二番目の単語))...というように、最後にカット点の組み合わせ最大確率を得るための最大確率経路を取得します。

言葉にビタビ・アルゴリズムを使用する能力を漢字に基づいてHMMモデルを用いて、未知語3.、

1. BEMS 4つの状態フラグによる中国語単語HMMモデルの使用は、Bは、Eは、端の終端位置である、開始位置を開始し、Mは中間の中間位置であり、Sは、単語に別個singgle位置です。北開始位置を表し、北京、中国国家の終了位置である、例えば、北京の4つの中国語の単語、BEのように標識することができる、すなわち北/ B北京/ Eをマークする(B、E、M、S)状態を使用してjiebaをマークすることができBMMEとして、それは初め、真ん中、真ん中、終わりです。

2.著者は、トレーニングコーパスの多くを使用して、我々は3つの確率テーブルを得ました。1、それぞれ)遷移確率の位置、遷移確率四つの状態、すなわち、B(開始)、M(中)、E(終了)、S(単語に分離)、P(E | B) = 0.851、P(M | B)= 0.149、我々は単語の先頭にある場合、次の単語の確率は確率は、私たちの直感に沿って、単語の途中次の単語の末尾よりもはるかに高いです説明二つの単語の単語以上の単語ので、言葉はより一般的です。3)単語のいずれか、2つだけ、実際には、特定の状態の確率で始まる; M)確率を表す「と」単語は単語の中央に表示され|そのようなP(「とは」などの言葉2)発光確率位置B、いずれかのS. このことは、HMMシステムであり、状態ベクトルを開始する最初のモデルです。実際には、BEMSモデルとの間の遷移は二つの単語間で転送される、2元に幾分類似しています。さらに単語、N-gramモデルを考慮単語バイグラム確率の後。
文が観測シーケンス、HMM(BEMS)のモデルには4つの状態があり、言葉を与えられることに、それが最適なシーケンスBEMSを見つけることです、我々は最高の隠された状態シーケンスを取得するには、このビタビアルゴリズムを使用する必要があります。確率テーブルによると、ビタビアルゴリズムは訓練され、あなたがEで終わる、Bが始まるようにし、BEMSシーケンスの最大確率を得ることができ、御馳走ワード文章は再グループ化、セグメント化の結果、世界中でこのような治療の単語文」を取得中国語の単語を学習していることはBEMSのシーケンスを与えるために、[S、B、E、S 、S、S、B、Eは、S]は、 取得するために、アローンSを分離することでその場しのぎの連続で一緒に単語を与えるために分割結果。

三つは、jieba分割処理
1.トライを生成するために、辞書をロードします。

2.文がないDAGのそれらのための語句リストにカットし、中国語の文字と英語の文字の定期的な継続的買収、最大確率のパスを取得するには、DAG(辞書)と、各フレーズのための動的プログラミングを使用し、使用して与えられた単語を与えます新しいセグメントのフレーズにまとめ辞書にある単語は、単語HMMモデルを使用して、つまり、著者は未知語を識別言います。

Pythonの収量の3.構文ワードジェネレータの生成は、言葉で返されます。

第四に、のjiebaワードの欠如
1.dict.txt辞書メモリは、あまりにも多くのメモリを占有し、140以上のMを占めていました。マルチワードHMM能力の乏しいを識別する際の問題を補償するための使用のjieba辞典ので、辞書を保存するには、3つのまたは4つの単語の言葉です。専門辞書は、ツールを提供していません独自の特殊な確率テーブルを訓練する方法は、不便生成します。

適時に2.HMM認識する新しい単語が不十分であり、新たな単語についてのみ認識されたワード2ワード3ワード、容量が比較的限られています。

3.効果は十分に良いスピーチタグ付け、構文解析、意味解析ではないにも存在しません。

4. NER効果は十分ではありません。

参考記事
https://www.cnblogs.com/echo-cheng/p/7967221.htmlの原理jiebaワード

Pythonモジュールのための中国語の単語はhttps://blog.csdn.net/rav009/article/details/12196623アルゴリズム・プロセスを理解し、分析するワードポイントをどもっ

公式文書jieba

おすすめ

転載: www.cnblogs.com/pythonclass/p/11269843.html
おすすめ