一般的なデータ分析パンダ

1.連結のマージデータ

  • API:pd.concat(OBJS、軸= 0、参加= '外'、join_axes =なし、ignore_index = Falseを、キー=なし、リーヴ=なし、名=なし、verify_integrity = Falseを、コピー=真)
  • パラメータ説明
    • OBJS:[シリーズ、データフレーム、パネル、..]データフレームをマージするリスト
    • 軸:{0、1}組み合わさシャフト、合成カラム:軸= 1、連結されている:軸= 0 
    • 参加:{「内側」、「外側」}外側、内側、関節の交点であります
  • 使用
    • 合わせた横方向(カラム合成):pd.concat([DF1、DF2、...]、軸= 1)
    • 複合縦方向(行を追加):pd.concat([DF1、DF2、...]、軸= 0)

2.スライス

  • API:df.iloc、に従い、位置の順番取得
    • pd.iloc [ラインスタート位置:行と列の開始位置の終了位置:カラム終了位置]
  • API:df.loc、に応じての名前を取得
    • pd.loc [:ライン名の末尾には、列の名前が始まっ:名前始まる行終了列名]  

3.日付関連の機能

  • 数値日付形式にデータを変換する:データは[ 'data_parsed'] = pd.to_datetime(データ[ '日付']、フォーマット= '%Yの%のM%のD')
  • 数値日付形式を変換する:dt.strftime('%Y-%M-%D')  #4がY%であり、%yは2年です
  • プロパティの日付フォーマットを取得します
    • 年を取得します:dt.year
    • dt.mouth:月を取得します。
    • 日へのアクセス:dt.day
    • dt.hour:時間を取得します。
    • 週の名前を取得します:.データ[ 'daynameofweek'] =データ[ 'data_parsed'] dt.weekday_name

4.サーマルエンコーディング:get_dummies

  • API:pd.get_dummies(データ、接頭辞、列)

修正再表示に値を確認してください。5.

  • API:data.column.unique()

6.欠損値と無限の価値があるかどうか確認してください

  • ビュー欠損値:all_dummy_df.isnull()合計()sort_values(昇順=偽).head()..
  • 表示ミス率

    合計= df_train.isnull()。和()。sort_values(昇順=偽)
   パーセント=(df_train.isnull()。和()/ df_train.isnull()()カウント)。sort_values(昇順=偽)
   MISSING_DATA = pd.concat([総パーセント]、軸= 1、キー= [ '総'、 'パーセント'])
   missing_data.head(20)

 

  • 無限大の値を参照してくださいnp.isinf(データ[ '列'])任意の()。
  • 欠損値と無限大の値を置き換え
    • data.replace(np.inf、0、インプレース=真) 
    • data.replace(np.nan、0、インプレース=真)

省略7.パンダは、行と列に表示されません

  • pd.set_option(「display.max_rows」、なし):これは、表示行を省略されていません
  • 表示欄が省略されていません。pd.set_optionを(「display.max_columns」、なし)  

 

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/scy645670291/p/12018119.html