5-jiebaライブラリを使用して、モジュール041

ライブラリに、jieba基本的な導入

1.1 jiebaライブラリの概要

jiebaは、中国のサードパーティのライブラリの優れた言葉であります

  • 中国語のテキストは、単語によって、単一の単語を取得する必要があります
  • jiebaは、中国のサードパーティのライブラリの優れた言葉、追加インストールが必要です
  • jiebaライブラリはちょうど最も簡単な機能をマスターするために、三つのモード・ワードを提供しています

インストール1.2 jiebaライブラリー

pip install jieba(CMDコマンドライン)

5-jieba -01.jpg 041-モジュールライブラリを使用していますか?X-OSS-プロセス=スタイル/透かし

の原理1.3 jiebaワード

Jiebaは、中国語の単語のシソーラスに依存しています

  • 中国では、文字の確率との間の相関を決定するためにシソーラスを使用します
  • フレーズを作曲大型漢字、単語形成結果の確率と
  • 単語に加えて、ユーザーは、カスタムフレーズを追加することができます

二、jiebaライブラリ命令

3つのモードの2.1 jiebaワード

精密モード、フルモード、検索エンジンモード

  • 精密モード:テキスト正確なカットを分離するために、何の冗長ワードがありません
  • フルモード:テキスト内のすべての可能な単語がスキャンされ、冗長
  • 検索エンジンモード:長期的な再分割に基づいて正確なモード

一般的に使用される機能の2.2 jiebaライブラリー

機能 説明
jieba.lcut(S) 正確なモードと単語リスト型の結果を返します
jieba.lcut(S、cut_all =真) フルモードは、分割結果のタイプのリストを返し、冗長あります
jieba.lcut_for_searのCH(S) 検索エンジンモード、分割結果のタイプのリストを返し、冗長あります
jieba.add_word(W) 辞書の単語ワットに新しい単語を追加します。
import jieba

jieba.lcut("中国是一个伟大的国家")
Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 1.174 seconds.
Prefix dict has been built succesfully.





['中国', '是', '一个', '伟大', '的', '国家']
jieba.lcut("中国是一个伟大的国家",cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
jieba.lcut_for_search("中华人民共和国是伟大的")
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']
jieba.add_word("蟒蛇语言")

2.3分詞ポイント

jieba.lcut(s)

おすすめ

転載: www.cnblogs.com/nickchen121/p/11200531.html