質問1:jieba中国語の単語原理?
質問2:jiebaにおけるHMMの応用?
質問3:他の産業でのHMMどのようなアプリケーション?
最初のステップは、公式サイトhttps://github.com/fxsjy/jiebaを見なければならない事を学ぶことです
公式サイトに適用jieba与えアルゴリズムを以下のとおりです。
- 文の場合の単語に基づいて、すべての可能な文字を生成するために、接頭辞単語辞書図効率的走査は、有向非巡回グラフ(DAG)を構成しました
- これは、使用最大確率経路を見つけるための動的プログラミングを最大点の単語の頻度に基づいて、カットの組み合わせを見つけること
- 未知語の場合は、の能力に基づいて単語に漢字使用してHMMモデルを使用して、ビタビアルゴリズムを
機能解析:
主な機能は:1、ワード2、カスタム辞書を追加:辞書ロードされ及び調整; 3、キーワード抽出:IT-IDFアルゴリズム、TextRankアルゴリズム; 4、音声タギング; 5、パラレルワード6、トークン化。 7、ヒューという音検索エンジンのchineseAnalyzer; 8、コマンドライン・ワード
1.セグメンテーション
#jieba.cut()を含む主に関連する関数、jieba.cut_for_search() #1 jieba.cut方法は、3つの入力パラメータを取る:単語列ニーズ、フルモードを使用するかどうかを制御するために使用cut_allパラメータと、パラメータがHMMかどうかを制御するために使用されます使用HMMモデル #のjieba.cut_for_search方法は、2つのパラメータを受け入れる:文字列が単語を必要とし、HMMモデルを使用するかどうか。この方法は、単語検索転置インデックスを構成するのに適している、比較的小さなサイズの #の文字列の単語は、Unicode文字列またはUTF-8、GBKの文字列であってもよいです。直接入力GBK文字列することは推奨されません、予期しないUTF-8にデコードエラーがあります注意してください #2以上の方法は、反復ジェネレータを返す各用語(ユニコード)を、後に得られた単語を取得するためにループするために使用することができますまたはjieba.lcutリストとjieba.lcut_for_searchと直接返す #1 エンコーディング= UTF-8 のインポートjieba seg_list = jieba.cut(" 私は北京の清華大学に来た"、cut_all = TRUE) 印刷(" :フルモード" + "/ " .Join(seg_list)) #フルモード seg_list = jieba.cut(" 私は北京の清華大学に来た"cut_all = False)が 印刷(" デフォルトモード:" + " / " .join(seg_list)) #の精度モード seg_list = jieba.cut(「彼は網易杭州研究棟が来た」) #デフォルトのモードが正確である 印刷(「」.join(seg_list)) seg_list = jieba.cut_for_search(" マスター暁明後、という計算中国科学院卒業勉強する日本の京都大学。」) # 検索エンジンモード 印刷(" " .join(seg_list))
業績
[フルモード]:I /へ/北京/清華大学/清華大学/マンダリン/ 大学 [正確なモード]:I /へ/北京/ 清華大学 [新]単語認識:彼は来て、網易、ハング調査、建物(ここでは、「ハング研究は、」辞書にないですが、また、ビタビ・アルゴリズムは、識別された) [検索エンジンモード]:暁明、MAは、で卒業し、中国、科学、芸術、科学、中国日本、京都大学、京都大学、研究における科学アカデミー、計算後のコンピューティング、