統合されたアプリケーション、jieba、句読点を行く、単語、保存、統計、単語を削除し、出力

インポートjiebaの

FP1 = R ' D:/python/a.txt ' 
outph = R ' D:/python/out.txt ' 
F =オープン(FP1、' R '、エンコード= ' UTF-8 ' 
TXT = F。読み取り()ストリップ()。
f.close()

ワード = jieba.lcut(TXT)
F =オープン(outph、' W '、エンコード= ' UTF-8 ' のための単語単語:
    f.write(ワード)
    F .WRITE(" \ nを' 
F.close() 


句読点に2つ目の質問、単語頻度統計 
BD = ' [()* +、 - / '「#$%&\!':;。?<=> @ [\\] ^ _ !? `{|}〜] +、 " """:。。、' 
カウント = {} 
exlutes = { ' 著者' ' ' }
 のためのBD:
    TXT = txt.replace(I、' '#の句読点置き換えるための文字列

の単語 = jieba.lcut(TXT)  単語
のための Wordをして:言葉
     IF lenは(ワード)== 1 続行
    
        カウント[単語] = counts.get(ワード、0)+1    所有词全统计
ための単語exlutes:
     デル(カウント[ワード])   {A、B}删除 
商品= リスト(counts.items())

の商品.sort(キー = ラムダ:X X [1] =逆true)を
 するための I   における範囲(15 ):
    ワードカウント = 項目[I]
     の印刷" {0:> 10} --- {1:<5 } " .format(ワード、カウント))

 

おすすめ

転載: www.cnblogs.com/huigebj/p/11440022.html