jieba笔记

1.jieba、カット(必要な単語列、フルモードを使用するかどうかcut_allコントロールは、コントロールがHMMモデルHMMか)---------戻りは、各単語について得られた反復発生器は、ループのために使用することができます。

2.jieba.cut_for_search(HMMモデルを使用するかどうかに必要な単語列)---------ジェネレータは、反復、ループは各ワードを得るために使用することができる返します。

リストに3.jieba.lcut()とjieba.lcut_for_search()-------復帰

4.jieba.load_userdict(FILE_NAME):ユーザー辞書をロードします

5.jieba.add_word(単語、FREQ =なし、タグ=なし)とjieba.del_word(ワード)が動的プログラムで辞書を変更します。

6.jieba.suggest_freq(セグメント、TUN = TRUE)単語頻度の個々の単語は、それが(またはできない)を分割することができるように、調整することができます。

7.抽出されたキーワードTF-IDFアルゴリズム:インポートjieba.analyse ------ jieba.analyse.extract_tags(テキストを抽出する、TOPK =最高重量戻り、いくつかのキーワード、デフォルト20、withWeight =まとめかキーワード重み値、デフォルトはFalseを、allowPOS =戻ります(単語の音声の唯一の指定された部分を含んで、デフォルトは空で、フィルタなし))。

8.キーワード抽出逆文書頻度(IDF)は、リスニング経路をカスタマイズするために使用されるテキストコーパスに切り替えることができる。jieba.analyse.set_idf_path(FILE_NAME)。テキストコーパスで使用されるキーワード抽出ストップワードは、カスタマイズされたリスニング経路に切り替えることができる。jieba.analyse.set_stop_words(FILE_NAME)

9.ベースのアルゴリズム抽出TextRankキーワード:jieba.analyse.textrank(文、TOPK、withWeight、alloePOS)。新しいカスタムTextRank:jieba.analyse.TextRank()

互換性とictclas表記を使用してワードマーク10後の文の各単語の品詞:PSEG ---------- pseg.cut(文)としてインポートjieba.posseg ------ジェネレータ。    

11.新しいカスタムのトークナイザ:jieba.posseg.POSTokenizer(トークナイザ= jieba.Tokenzer指定されたワード内部で使用する、デフォルトはNone、すなわちjieba.posseg.dtではありません)。

12.パラレルワード:jieba.enable_parallel(NUM)----オープンパラレルワード・モード・パラメータは、並列処理数です。

      閉じるパラレルモード・ワード:jieba.disable_parallel()

13.jieba.tokenize(文、モード=デフォルトモードまたは検索モードの検索は):元のテキスト内の単語の開始と終了を返します。

 

おすすめ

転載: www.cnblogs.com/Turing-dz/p/11805777.html