ホットワードは、フィールド内の情報08の解析及びセグメンテーション、洗浄jiebaを使用してクロールプロセスデータの第2ステップの解釈を分類しました

直接コードに:

インポートjiebaの
PDのようなインポートパンダ
インポート再
コレクションからは、カウンタを読み込む

場合__name __ == '__ MAIN__':
    ファイルハンドル=オープン( "news.txt"、 "R"、コード= 'UTF-8')。
    mystr = filehandle.read()
    seg_list = jieba.cut(mystr)#默认是精确模式
    プリント(seg_list)
    #all_words = cut_words.split()
    #print(all_words)
    ストップワード= {} .fromkeys([line.rstrip() ')](r'stopwords.txt)オープンのラインのための
    C =カウンター()
    :seg_listにおけるxについて
            :Xならないストップワードで
                \ R \ n 'は:lenの場合(X)> 1かつx =!' 
                    C [ X] + = 1 
 
    プリント( '\ nは词频统计结果:')
    のための(K、V)c.most_common(100)において:#输出词频最高的前两个词
        印刷( "%S:%のD" %(K、V))

    #Print(myStr)は
    ()をfilehandle.close; 
#= SEG2 jieba.cut(。 "よく学ぶのpython、便利"、cut_all = False)が
#を印刷( "ファインモード(また、デフォルトモード):"、 '' .join( SEG2))

  

ファイル名を指定して実行ショット:

 

 

 

 要約:最初のステップはstop.txtと、単語、単語除去余分単語によれば、次にクロール、クロール大量のデータです。 

次いで、上記のデータを得ることができます。

stop.txtの一部スクリーンショット:

 

おすすめ

転載: www.cnblogs.com/xcl666/p/12289646.html