まず、統計的手法と離散文字列
今、私たちはからのグループがあると2006鮎1000最も人気のある動画データユニットを、私たちはどのように我々が得るべきである、そのような取締役の数として、これらの動画データの情報平均スコアを知りたいですか?
出典:https://www.kaggle.com/damianpanek/sunday-eda/data
インポートPANDAS ASは、Pd から matplotlibのインポートPLTのAS pyplot FILE_PATH = " ./IMDB-Movie-Data.csv " DF = pd.read_csv(FILE_PATH) 印刷(()df.info) 印刷(df.head()) #GET平均評価の 印刷(DF [ " 評価" ] .mean()) #GET取締役の数は、 印刷(LEN(SET(DF [ " ディレクター" ] .ToList()))) #の印刷(LEN(DF [ "ディレクター"]。 UNIQUE())) #の人々の数は、俳優の取得 temp_actors_list DF = [ " 俳優"] .str.split(" " ).tolist() actor_list = [I ための J で temp_actors_list 用 I におけるj]を actor_num = LEN(セット(actor_list)) プリント(actor_num)
映画、最小の最大長を取得します。
動画データのこのグループのために、私たちがしたい場合は評価、ランタイム配布、それがデータを提示する方法をすべきですか?
取得ランタイム配布を:
インポートPANDAS AS PD から matplotlibのインポートPLTのAS pyplot FILE_PATH = " ./IMDB-Movie-Data.csv " DF = pd.read_csv(FILE_PATH) 印刷(df.head(1 )) を印刷(df.info()) #の評価ランタイム配布 #選択されたヒストグラムパターン #データを作成 DF runtime_data = [ " ランタイム(分)" ] .values MAX_RUNTIME = runtime_data.max() min_runtime = runtime_data.min() num_bin =(MAX_RUNTIME-min_runtime)。5 // #グラフィックサイズ設定 plt.figure(figsize =(20,8)、DPI = 80 ) plt.hist(runtime_data、num_bin) plt.xticks(レンジ(min_runtime、MAX_RUNTIME +5,5 )) )(plt.show を
取得評価の状況を:
インポートPANDAS AS PD から matplotlibのインポートPLTのAS pyplot FILE_PATH = " ./IMDB-Movie-Data.csv " DF = pd.read_csv(FILE_PATH) 印刷(df.head(1 )) を印刷(df.info()) #の評価ランタイム配布 #選択されたヒストグラムパターン #データを作成 DF = [runtime_data " 評価" ] .values MAX_RUNTIME = runtime_data.max() min_runtime = runtime_data.min() プリント(min_runtime、MAX_RUNTIME) 印刷(max_runtime- min_runtime) num_bin_list = [1.6 ] I = 1.6 のために M で範囲(15 ): I + = 0.5 num_bin_list.append(I) プリント(num_bin_list) #设置图形的大小 plt.figure(figsize =(20,8 )、DPI = 80 ) plt.hist(runtime_data、num_bin_list) plt.xticks(num_bin_list) plt.show()