直接コードに:
インポートjiebaの PDのようなインポートパンダ インポート再 コレクションからは、カウンタを読み込む 場合__name __ == '__ MAIN__': ファイルハンドル=オープン( "news.txt"、 "R"、コード= 'UTF-8')。 mystr = filehandle.read() seg_list = jieba.cut(mystr)#默认是精确模式 プリント(seg_list) #all_words = cut_words.split() #print(all_words) ストップワード= {} .fromkeys([line.rstrip() ')](r'stopwords.txt)オープンのラインのための C =カウンター() :seg_listにおけるxについて :Xならないストップワードで \ R \ n 'は:lenの場合(X)> 1かつx =!' C [ X] + = 1 プリント( '\ nは词频统计结果:') のための(K、V)c.most_common(100)において:#输出词频最高的前两个词 印刷( "%S:%のD" %(K、V)) #Print(myStr)は ()をfilehandle.close; #= SEG2 jieba.cut(。 "よく学ぶのpython、便利"、cut_all = False)が #を印刷( "ファインモード(また、デフォルトモード):"、 '' .join( SEG2))
ファイル名を指定して実行ショット:
要約:最初のステップはstop.txtと、単語、単語除去余分単語によれば、次にクロール、クロール大量のデータです。
次いで、上記のデータを得ることができます。
stop.txtの一部スクリーンショット: