たとえば:多くの機能カテゴリ名を持っている機能が含ま万サンプルデータセットは、存在し、そしていくつかの名前が何度も登場しますが、名前の多くは一度だけ表示され、現在はこれらの名前は一度しか表示されたいと考えていますクラスとして分類され、次いで、符号化後one_hotクラス区分が大幅に削減される寸法は、以降の処理が比較的容易です!
直接コードで騒ぎ、。。。
インポートPANDAS AS PD インポートNP AS numpyの DF = pd.DataFrame(np.array(リスト(' abcdcbaceebcabcdacbeaabcbfnaeb '))。RESHAPE(5,6)、レンジ指数=(。5)、列は= [ ' A '、' B '、「C 」、「D 」、「名称」、「F 」]) DEF (データを扱う): #1 カテゴリは統計的特性、戻りデータ型シリーズ、すべてのカテゴリのインデックス、各値を分類します対応したカテゴリ数 =データをFEATURE_COUNT [ 「名前」] .value_counts() L = LEN(feature_count.values) small_list = [] #のみクラス1のリストにサンプルの数 のための I における範囲(L): IF feature_count.values [I] == 1 : small_list。追記(feature_count.index [I]) #1 、M = LEN(データ) feature_values = DATA [ ' 名前' ] .values 用 J におけるレンジ(M) 用の I におけるsmall_list: IF Iは== feature_values [J]。 feature_values [J] =' 少数' データ[ ' 地名' ] = feature_values 戻りデータ ハンドル(DF)