データおよび特性は、機械学習の上限を決定し、モデルやアルゴリズムはちょうどだけこの限界に近づい。
5.1、データクレンジング
5.1.1サンプリングデータサンプル
・ サンプルは、代表されるように
・ バランスをとると、凹凸のサンプルをどのように扱うかのサンプルの割合
・ データの全額を考えてみましょう
5.1.2異常値(NULL値)のための
・ 外れ値を識別し、複製
パンダを:ISNULL()/重複()----重複エントリか否かを判断します
・ (重複データを含む)を破棄
パンダ:ドロップ()/ dropna()/()drop_duplicated
・ 元の値を置き換えるために新しいプロパティなどの異常な
パンダ:fillnaを()
・ フォーカスが指し
パンダを:fillna()
・ 境界値を意味
パンダを:fillna()
・ 補間
パンダ:補間()--- で用シリーズ
値は、ヘッド部に挿入されている場合、数値の秒数が挿入されています。
値はリアインサートに向かって配置されている場合、数値の逆数に第二の数の大きさ。
中央部に挿入されたとき、二つの数字の前および後の平均。
NP numpyのインポートAS インポートPANDAS AS PD [ 'A0'、 'A1'、 'A1'、 'A2'、 'A3'、 'A4']:DF = pd.DataFrame({ 'A' 'B':[ 'B0'、 'B1'、 'B2'、 'B2'、 'B3'、なし]、 'C':[1,2、なし、3,4、5]、 'D':[0.1,10.2、 11.4,8.9,9.1,12]、 'E':[10,19,32,25,8、なし]、 'F.':[ 'F0'、 'F1'、 'G2'、 'F3'、「F4 '' F5「]}) プリント(DF) #プリント(df.duplicated())# がヌル行削除 #DF = df.dropna() #をヌル属性を削除 DF = df.dropna(サブセット= [「B」]) 繰り返し回数が削除#ラインは、最後の最後に保持するために、最初の(デフォルト)を保持 DF = DFを。drop_duplicates( 'A'、= '最初の'まま) DF [ 'B'] = df.fillna( '*のB') #補間処理がシリーズでのみ実行 DF [ 'E'] =のDF [ 'E']。 補間() upper_q = DF [ 'D']分位数(Q = 0.75)。 lower_q = DF [ 'D']分位数(Q = 0.25)。 K = 1.5 q_int = upper_q - lower_q DF = DF [] 'D' [DF <upper_q + k個*のq_int] [DF [ "D"]> lower_q - K・q_int] #プリント(pd.Seriesは([1、なし、9,16,25])を補間しない()) プリント(DF) #要求F列必须以F开头 DF [[真の場合item.startswith( 'F')リスト内の項目についてはfalse(DF [ 'F']。値)]] プリント(DF)
'' '
の結果:
ABCDEF
1 A1 A1を2.0 10.2 19.0 F1
。3 3.0 8.9 25.0 A2 A2 F3
。4 4.0 9.1 8.0 A3 A3 F4
' ''