単純なデータに基づいて、Pythonの学習プロセス

PDインポートAS PANDAS 
DF = pd.read_excel( 'E://朝陽病院、データ2018販売データの.xlsx')
df.head()#印刷の最初の5つの
df.shape#どのように多くの行、列数の
df.dtypes #各列のデータ型チェック
colNameDict = {「時間の消費者」:「タイムセールス」} 列の名前を変更
df.rename(列= colNameDict、インプレース= TRUE)#の時間までの時間で、消費者への販売をインプレース=真彼らは、新しいデータを作成するための偽の表現はオブジェクト、彼らは直接、元のデータに変更を加えるための新しいオブジェクトを作成していないと述べた
df.head()


の取り扱い#欠損値
の印刷(「欠損値の前にサイズを削除」、df.shape)
DF = DFを.dropna(サブセット= [「販売時間」、「社会保障番号」] =「は任意の」どのように )# 列を削除(販売期間、社会保障番号)が空の行で、どこか=「任意の」の所定の列を意味します任意の行にNULL値を削除し
、印刷(「欠損値サイズを削除した後」、df.shape) 
データ型変換
DF [「販売」] =のDF [「販売は」] .astype(「フロート」 )
DF [ '量受取'] = DF [ '量受取'] .astype( 'フロート') 
DF [ '社会保障番号'] = DF [ '社会保障番号'] .astype( 'ocject')
##更新日
splitsaletime DEF(timeColser):社会保障番号は、任意の「「]、どのように=」) 
##データの順序
    = timelist [] 
    の値にtimeColserため:例えば、#2018年1月1日金曜日は、に分割される:2018年1月1日
        ( '')関数datestr = value.split [0] 
        timelist.append(関数datestr)

    timeSer = pd.Series (timelist)#転送行動リスト型一次元データ系列
    リターンtimeSer 

##入力:timecolser--販売時間この列、データ型の一連の
##出力:時分割し、また、戻りデータ型

timeSer = df.loc 【:「時間の販売」]#この列の販売期間取得
販売日得、dateSer = splitsaletime(timeSer)#文字列が分割され

df.locのこの行[し、「タイム販売」] = dateSer#変更営業時間値
df.head() 
文字列変換日付

df.locの[:、 '時間の販売'] = pd.to_datetime(df.locの[:、 ' 時間を販売']、フォーマット=' %Y- %M-%D 'エラー='強制')
df.dtypes 


DF = df.dropna(サブセット= ['販売時間''社会保障番号を']、どのように='任意の" )


=昇順場合昇順でカラムでソートすることを示すことによって、#### pd.sort.valuesを用いる方法をソートするTRUE、FALSEが注文降順示し示す
印刷(「選別前データ」)
df.head()
= DF df.sort_values(=「販売時間」によっては、昇順=真)は
、印刷(「データソート」)
df.headを()

##の後,,混乱ソートされた行番号の再する必要がソート
DF = df.reset_index (ドロップ= TRUE)
df.head()


私は()の統計情報を記述する各列内のすべてのデータとのデータボックスを表示する方法を説明し、第一,, ##の外れ値を処理し、
df.dedscribe()#販売の結果から見ることができます削除、否定結果,,記録エラーの数が存在してもよい

位条件決意を削除することによって削除

queryser = df.locの[し:、「販売」]> 0#セットクエリ
プリント(「外れ値を削除する前に」、df.shape )
DF = df.loc [queryser、:]#条件アプリケーション
プリント(df.shape '後に異常値削除')を

  

おすすめ

転載: www.cnblogs.com/manjianlei/p/11299964.html