1.jiebaワードのインストール
CMDウィンドウの中に直接インストールピップします
導入の2.jiebaワード
jiebaワードが良いの中国部門1ワードのコンポーネントである、jiebaワードは単語(正確なモード、フルモード、検索エンジンモード)の3つのモードがサポートされていて、カスタム辞書(これは時々、特定の分野で重要であるをサポートしています伝統的な漢字語のサポート、)結果のポイントの品質を向上させるために、特定の単語辞書を追加する必要があるの分野に必要
3.jieba 3単語分割モデルの種類と使用例
jiebaセグメンテーションモジュールの主な方法は、jieba.cut()、正確なモデルと主に異なるフルモデルパラメータとの差であります
(1)ファインモード:正確テキスト分析のためのテキストを切断します
偽CUT_ALL =内部jieba.cut()メソッド
(2)フルモード:すべての速くて言葉に抽出することができ、テキストのすべての単語が、曖昧さの問題を解決することはできません
CUT_ALL = Trueの内部jieba.cut()メソッド
(3)検索エンジンモード:正確なパターンに基づいて、検索用の長期再分割に基づきます
あなたはjieba.cut_for_search()メソッドを呼び出す必要があります
ただ、次の単語の3種類をテストするためのモデルに、彼らが何であったかが表示されない、これらの事を見て:
1つのテキスト= 「教育省の下で、北京郵電大学、および工業情報化省は、 『211プロジェクト』国家重点大学の最初のバッチだった」 2 try_words = jieba.cut(テキスト、cut_all = TRUE) 3 印刷(" フルモード分割結果:' + ' 、' .join(try_words)) 。4 try_words = jieba.cut(テキスト、cut_all = False)が 5。 印刷(' ファインモードセグメンテーション結果:' + ' 、" .join(try_words)) 。6 = try_words jieba.cut_for_search(テキスト) 7。 印刷(' 検索エンジンモード分割結果:' + "、" .join(try_words))
コードの実行結果:
フルモードのセグメンテーション結果:北京、北京郵電、投稿の北京大学や通信、郵政、郵電大学、大学、専門学校、はい、教育、教育省、直接,,,業界の下で、及び、情報、情報技術、部門、構築,,, ,,行って、最初の211 ,,,建設プロジェクト、国家フォーカス、大学
正確なモード分割結果:北京郵電大学は、,,,文部科学省、直接,,,業界の下、情報技術、ビルドの省で最初に行われ、「211プロジェクト」、国の建設主な大学
検索エンジンモード分割結果:北京、電気通信、ラジオやテレビ大学、投稿の北京大学とテレコミュニケーション、それが最初に行わ,,,教育、教育部門、直接,,,業界の下で、及び、情報、情報技術、省、構築されて大学に焦点を当て、「211プロジェクト」、国の建設、
上記のコードで得られた結果は、我々が抽出された単語のすべての間、フルテキストモードの単語を参照して、プロンプターウィンドウは単語が複数回出現することができます言葉の中で、オーバーラップして含まれるようにすることですが、このモデルは言葉を持っています曖昧さが発生する可能性があり、正確な確率モデルテキストワードを正確ロングワードの優先度に、間隔を置いて配置され、ウィンドウと重なるように単語のない繰り返しが存在しない、この曖昧さの区分けパターンは比較的小さいが、それは可能ですワードウィンドウが大きすぎるがあるだろう、言葉にいくつかの焦点は、単独の場合の結果の中では表示されません。要約すると、異なるシナリオのために、これらの二つのモデルの語は、適宜選択されるべきです。
一例では、「産業省と情報技術」は、独立した用語であるべきであることを言及する価値があるが、手動で実装する必要がある言葉では見られない3つの分割方法は、シソーラスを追加し、下に置か一部。
試してみ発生する可能性があるし、テキストあいまいな状況:
1つのテキスト2は、= ' 南京長江ブリッジは、ブリッジである' 2 try_words = jieba.cut(テキスト2、cut_all = TRUE) 3。 プリント(' フルモード分割結果:' + ' ' .join(try_words)) 。4 try_words = jieba。カット(テキスト2、cut_all = False)が 5。印刷(' ファインモードセグメンテーション結果:' + ' ' .join(try_words)) 。6 try_words = jieba.cut_for_search(テキスト2) 。7 印刷(' サーチモードセグメンテーション結果:' + " 、" .join(try_words))
「南京長江大橋、」または、ほとんどの時間、それは「南京」と「長江の橋」のようになります。例のテキストは、私たちが言葉から抽出された結果がでなければなりません願っています「南京長江大橋は、橋である」されます二つの単語、オペレーションコードの結果です。
フルモードのセグメンテーション結果:南京、南京、北京市、市長、長江、長江橋、橋は、橋であります
正確なモード分割結果:南京長江大橋は、ブリッジであります
検索エンジンモデルのセグメンテーション結果:南京、南京の北京市、長江大橋、長江橋は、橋であります
結果:3モードの中では、私たちの最高の期待(南京長江大橋)を見つけましたが、あいまいな言葉(市長、北京市)は、当社の持つ検索エンジン、間フルモードとモードで分割結果にあったされていませんコンテキストは、また、完全モードを反映しており、エンジンの欠陥モードの単語を検索する起こるれ、明らかに無関係であることにかかわらず、コンテキスト傾向の、あいまいな言葉であり、かつ正確なパターンが比較的小さく見えます。
なぜ上記のシナリオに関しては、私は次の理由により、その後の関連情報へのアクセス権を持っています:
中国語の単語分割方法は、大きく3つのカテゴリに分けることができます。単語辞書、シソーラスマッチングに基づく方法、単語頻度統計に基づくセグメンテーション方法単語のために法律の単語を横断することに加えて、しかしための知識の分割方法(の程度に基づいてテキストがあるかどうかを理解するためにどのように短い、再びどのくらいの単語シソーラスのための単語を通過しなければならないほとんどの場合、非採用)するように、効率が低すぎます。使用されるモジュールの一般的な中国語の単語分割方法基づいて辞書、シソーラス、戦略は、フルモード(辞書中の最も長い単語の長さは、nが設けられている)である:最初のフィールドから文字、読み取り後方1,2- 、... n文字、あなたが到達できるように対応が、それはすべてのフィールドが単語に抽出することができ、取り出すことであろう(と重なる部分がある)オブジェクトの場合、辞書に対応して、対応します、正確なモード分割戦略が展開用語ウィンドウとして取ることができる、すなわち繰り返し長さは1からこれらの単語のNを含有することができる、出力が最も長くかかります。
(必ずしも正しい、各モードの単語モジュールの時点で使用中「の理由」ちょうど私の個人的な視点を上記のない、プロジェクトの影響がない、結局、私は...ソースコードの特殊な研究に行きませんでした)
カスタム辞書を追加する4.jieba単語
言葉、それならば、多くの場合、多くの特定のコンテキストで使用される中国語の単語は、辞書「ランドマーク」などが属し、そのような「南京長江大橋」の一環として、特定のコンテキストでいくつかの辞書を追加し、対応する必要があります「南京」とに分け、「長江大橋、」完全に我々はカスタム辞書を追加する必要があり、(すべての後に、南京で物事の多くは、南京長江大橋があるよりも多くある)、この時間は、元のテキストの焦点をそこに反映されない場合がありますサブワードの品質を向上させます。
。1 jieba.add_word(' 工業情報化')
次のように挿入セグメンテーション結果後、その新しい単語を追加するjiebaモジュールadd_word()メソッドを使用します。
フルモードのセグメンテーション結果:北京、北京郵電、投稿の北京大学や通信、郵政、郵電大学、大学、専門学校、はい、教育、教育省、直接,,,産業の下で、産業と情報技術、情報、情報技術、省、の合計,,,最初に建てられ、211 ,,も,,,エンジニアリング・建設、国は、
大学の焦点
正確なモード分割結果:北京郵電大学は、直接,,,下、教育省で産業と情報技術省、の合計構築された,,,最初に行われ、「211プロジェクト」、国の建設、大学のフォーカス
サーチエンジンモード分割結果:北京、電気通信、ラジオやテレビ大学、北京郵電大学は、教育、教育であります直接,,,業界、情報、情報技術、下の部門、産業と情報技術大学に焦点を当て構築するために、,,,最初に行われ、「211プロジェクト」、国の建設、
フルモード分割結果:南京、南京、南京長江大橋、北京市、市長、長江、長江橋、橋は、橋です
:正確なモード分割結果南京長江大橋、橋である
検索エンジンモード分割結果:南京、北京市、市長、長江大橋、南京、南京長江大橋が、ブリッジであります
主な変更点は、直接この言葉のモードに全体のモードと、検索エンジンということですが、正確なクロックは、新たな形容語(仮称いわゆる)のサブセットであるの一部という仮定と一致している、置き換えられます。
これはおそらく、結果の最初の日で、コンテンツが実際にはそうし続けることができるという希望を整理するために、今日出て、数ヶ月前に学習されます。