ディレクトリ
ライブラリに、jieba基本的な導入
1.1 jiebaライブラリの概要
jiebaは、中国のサードパーティのライブラリの優れた言葉であります
- 中国語のテキストは、単語によって、単一の単語を取得する必要があります
- jiebaは、中国のサードパーティのライブラリの優れた言葉、追加インストールが必要です
- jiebaライブラリはちょうど最も簡単な機能をマスターするために、三つのモード・ワードを提供しています
インストール1.2 jiebaライブラリー
pip install jieba
(CMDコマンドライン)
の原理1.3 jiebaワード
Jiebaは、中国語の単語のシソーラスに依存しています
- 中国では、文字の確率との間の相関を決定するためにシソーラスを使用します
- フレーズを作曲大型漢字、単語形成結果の確率と
- 単語に加えて、ユーザーは、カスタムフレーズを追加することができます
二、jiebaライブラリ命令
3つのモードの2.1 jiebaワード
精密モード、フルモード、検索エンジンモード
- 精密モード:テキスト正確なカットを分離するために、何の冗長ワードがありません
- フルモード:テキスト内のすべての可能な単語がスキャンされ、冗長
- 検索エンジンモード:長期的な再分割に基づいて正確なモード
一般的に使用される機能の2.2 jiebaライブラリー
機能 | 説明 |
---|---|
jieba.lcut(S) | 正確なモードと単語リスト型の結果を返します |
jieba.lcut(S、cut_all =真) | フルモードは、分割結果のタイプのリストを返し、冗長あります |
jieba.lcut_for_searのCH(S) | 検索エンジンモード、分割結果のタイプのリストを返し、冗長あります |
jieba.add_word(W) | 辞書の単語ワットに新しい単語を追加します。 |
import jieba
jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 1.174 seconds.
Prefix dict has been built succesfully.
['中国', '是', '一个', '伟大', '的', '国家']
jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
jieba.add_word("蟒蛇语言")
2.3分詞ポイント
jieba.lcut(s)