06-統計的方法と離散文字列

まず、統計的手法と離散文字列

今、私たちはからのグループがあると20061000最も人気のある動画データユニットを、私たちはどのように我々が得るべきである、そのような取締役の数として、これらの動画データの情報平均スコアを知りたいですか?

 

 

  出典:https://www.kaggle.com/damianpanek/sunday-eda/data

インポートPANDAS ASは、Pd
 から matplotlibのインポートPLTのAS pyplot 

FILE_PATH = " ./IMDB-Movie-Data.csv " 
DF = pd.read_csv(FILE_PATH)
 印刷(()df.info)
 印刷(df.head())
GET平均評価の
印刷(DF [ " 評価" ] .mean())
GET取締役の数は、
印刷(LEN(SET(DF [ " ディレクター" ] .ToList()))) 印刷(LEN(DF [ "ディレクター"]。 UNIQUE())) 人々の数は、俳優の取得 
temp_actors_list DF = [ " 俳優"] .str.split(" " ).tolist()
actor_list = [I ための J  temp_actors_list  I におけるj]を
actor_num = LEN(セット(actor_list))
 プリント(actor_num)

映画、最小の最大長を取得します。

 

 動画データのこのグループのために、私たちがしたい場合は評価ランタイム配布、それがデータを提示する方法をすべきですか?

取得ランタイム配布を:

インポートPANDAS AS PD
 から matplotlibのインポートPLTのAS pyplot 

FILE_PATH = " ./IMDB-Movie-Data.csv " 
DF = pd.read_csv(FILE_PATH)
 印刷(df.head(1 ))
 を印刷(df.info())
評価ランタイム配布選択されたヒストグラムパターンデータを作成 
DF runtime_data = [ " ランタイム(分)" ] .values 

MAX_RUNTIME = runtime_data.max()
min_runtime = runtime_data.min()
num_bin =(MAX_RUNTIME-min_runtime)。5 //
 グラフィックサイズ設定 
plt.figure(figsize =(20,8)、DPI = 80 
plt.hist(runtime_data、num_bin)
plt.xticks(レンジ(min_runtime、MAX_RUNTIME +5,5 )) 

)(plt.show 

取得評価の状況を:

インポートPANDAS AS PD
 から matplotlibのインポートPLTのAS pyplot 

FILE_PATH = " ./IMDB-Movie-Data.csv " 
DF = pd.read_csv(FILE_PATH)
 印刷(df.head(1 ))
 を印刷(df.info())
評価ランタイム配布選択されたヒストグラムパターンデータを作成 
DF = [runtime_data " 評価" ] .values 

MAX_RUNTIME = runtime_data.max()
min_runtime = runtime_data.min()
 プリント(min_runtime、MAX_RUNTIME)
 印刷(max_runtime- min_runtime)
num_bin_list = [1.6 ] 
I = 1.6
 のために M 範囲(15 ):
    I + = 0.5 
    num_bin_list.append(I)
プリント(num_bin_list)
设置图形的大小 
plt.figure(figsize =(20,8 )、DPI = 80 
plt.hist(runtime_data、num_bin_list)
plt.xticks(num_bin_list)

plt.show()

おすすめ

転載: www.cnblogs.com/lishuntao/p/11923865.html