第5章事前理論

データおよび特性は、機械学習の上限を決定し、モデルやアルゴリズムはちょうどだけこの限界に近づい。

5.1、データクレンジング

5.1.1サンプリングデータサンプル

・         サンプルは、代表されるように

・         バランスをとると、凹凸のサンプルをどのように扱うかのサンプルの割合

・         データの全額を考えてみましょう

5.1.2異常値(NULL値)のための

・         外れ値を識別し、複製
     パンダをISNULL()/重複()----重複エントリか否かを判断します

・         (重複データを含む)を破棄
     パンダドロップ()/ dropna()/()drop_duplicated

・         元の値を置き換えるために新しいプロパティなどの異常な
     パンダfillnaを()

・         フォーカスが指し
     パンダをfillna()

・         境界値を意味
     パンダをfillna()

・         補間
     パンダ補間()--- で用シリーズ

      値は、ヘッド部に挿入されている場合、数値の秒数が挿入されています。

      値はリアインサートに向かって配置されている場合、数値の逆数に第二の数の大きさ。

      中央部に挿入されたとき、二つの数字の前および後の平均。

NP numpyのインポートAS 
インポートPANDAS AS PD 
[ 'A0'、 'A1'、 'A1'、 'A2'、 'A3'、 'A4']:DF = pd.DataFrame({ 'A' 
                   'B':[ 'B0'、 'B1'、 'B2'、 'B2'、 'B3'、なし]、
                   'C':[1,2、なし、3,4、5]、
                   'D':[0.1,10.2、 11.4,8.9,9.1,12]、
                   'E':[10,19,32,25,8、なし]、
                   'F.':[ 'F0'、 'F1'、 'G2'、 'F3'、「F4 '' F5「]})
プリント(DF) プリント(df.duplicated())
がヌル行削除
#DF = df.dropna() をヌル属性を削除
DF = df.dropna(サブセット= [「B」])
繰り返し回数が削除#ラインは、最後の最後に保持するために、最初の(デフォルト)を保持
DF = DFを。drop_duplicates( 'A'、= '最初の'まま) 
DF [ 'B'] = df.fillna( '*のB') 補間処理がシリーズでのみ実行
DF [ 'E'] =のDF [ 'E']。 補間()
upper_q = DF [ 'D']分位数(Q = 0.75)。
lower_q = DF [ 'D']分位数(Q = 0.25)。
K = 1.5 
q_int = upper_q - lower_q 
DF = DF [] 'D' [DF <upper_q + k個*のq_int] [DF [ "D"]> lower_q - K・q_int] プリント(pd.Seriesは([1、なし、9,16,25])を補間しない())
プリント(DF) 要求F列必须以F开头
DF [[真の場合item.startswith( 'F')リスト内の項目についてはfalse(DF [ 'F']。値)]] 
プリント(DF)
'' ' 
の結果:
ABCDEF
1 A1 A1を2.0 10.2 19.0 F1
。3 3.0 8.9 25.0 A2 A2 F3
。4 4.0 9.1 8.0 A3 A3 F4
' ''

  

おすすめ

転載: www.cnblogs.com/Cheryol/p/11423573.html