#- * -コーディング:UTF-8 - * - #のスパイダー(のpython 3.7)
1.統計文字(jiebaの分詞の後に使用することができます)
以下からのコレクションのインポートカウンター からオペレータのインポートitemgetter #のtxt_list関数のパラメータが導入されたように書くことができ txt_list = [ 「年齢の」、「人間」、「人間」、「長い」、「長い」、「長い」、「HA 」、" 才能を' ' 年齢' ' 年齢" ] C =カウンタ() のために X でtxt_list: IF lenの(X)> = 1 : IF X == ' \ R&LT \ N- ' 又は X == ' \ N- ' 又は X == ' ' : 続行 他: C [X]を + 1 = 印刷(' :N- \共通の単語頻度統計' ) のための(K、V)で c.most_common(4): #プリントトップ4 プリント(' %S%S%S%D '%(' '*(3)は、K、' * ' *。3 、V)) #降順番号プリント単語頻度に応じて D =キー=(itemgetterソート(c.items()。1)、リバース= TRUE)を するための SS、TT でD: out_words = SS + ' \ T ' + STR(TT) 印刷(out_words)
2.書かれた文書を循環させる複数のカバレッジは、
#1 ファイルに書き込む、複数の書き込み、フロントカバーの後に一度、しかしout_words自体が重畳されている 位、すなわち:書かれた最初である:永遠の\ T3の\ nは、第二の書き込み:永遠の\ T3の\ nはロング\ T3の\ nを、データカバレッジ; #三時間:T3 \ nはロング\ T3 \ nはルーム\ T2の\ nを\年代には、以前のデータを上書きし続け = out_words '' のための SS、 TT におけるD: out_words = out_words + SS + ' \ T ' + STR(TT)+ ' \ N- ' を開くと(R&LT " \ sss.txt。"、" W "、エンコーディング= ' UTF-8 ' )、F AS : f.write(out_words + ' \ N- ')
例えば、2つのサイクルの結果は次のとおりです。
3.ファイルへの1回の書き込みを、繰り返し書かれた中央を上書きしません。しかし、あなたが繰り返しのコードを実行した場合、ワンタイムは、すべての新しいコンテンツを再書き込みする前に、それはすべてをカバーします
out_words = '' のための SS、TT におけるD: out_words = out_words + SS + ' \ T ' + STR(TT)+ ' \ n ' オープン(rの" \ ttt.txt。"、" W "、エンコーディング= ' UTF-8 ' )、Fとして: f.write(out_words + ' \ n ')