パンダの一般的な機能

データのインポート

  • pd.read_csv(ファイル名):CSVファイルからデータをインポート
  • pd.read_table(ファイル名):定義区切りのテキストファイルからデータをインポート
  • pd.read_excel(ファイル名):Excelファイルからデータをインポート
  • pd.read_sql(クエリ、connection_object):SQLテーブル/データベースからデータをインポート
  • pd.read_json(json_string):JSON形式の文字列からデータをインポート
  • pd.read_html(URL):抽出されたテーブルが形成しており、HTMLファイルや文字列をURLを解析
  • pd.read_clipboard():クリップボードからコンテンツを取得し、そして(read_table合格)
  • pd.DataFrame(辞書):辞書オブジェクトからデータをインポートは、キーがカラム名、値のデータであります

データのエクスポート

  • df.to_csv(ファイル名):CSVファイルへのデータのエクスポート
  • df.to_excel(ファイル名):Excelファイルへのエクスポートデータ
  • df.to_sql(TABLE_NAME、connection_object):SQLテーブルへのエクスポートデータ
  • df.to_json(ファイル名):JSON形式は、テキストファイルにデータをエクスポートします

テストオブジェクトを作成します。

  • pd.DataFrame(np.random.rand(20,5)):5からなるオブジェクトの作成20データフレームの行乱数
  • pd.Series(my_listという):イテラブルmy_listというのシリーズオブジェクトの作成
  • df.index = pd.date_range(= df.shape '1900年1月30日'、期間[0]):日付インデックスを増加させます

データを確認し、チェック

データセレクター

  • DF [COL]:カラム名、およびシリーズの形で列を返します
  • DF [COL1、COL2]:データフレームの列の複数の形態を返します
  • s.iloc [0]:場所によってデータを選択します
  • s.loc [「index_one」]:押して[データのインデックス
  • df.iloc [0:]:最初の行を返します
  • df.ilocは[0,0]:最初の列の最初の要素を返します。

データクレンジング

  • df.coumns = [ 'A'、 'B'、 'C​​']:カラム名を変更
  • pd.isnull():NULLデータフレームの検査対象とブール配列を返します
  • pd.notnull():非NULL値のデータフレームの検査対象とブール配列を返します
  • df.dropnaは():すべての行がNULL値を含む削除します
  • df.dropna(軸= 1):削除すべての列がヌル値を含みます
  • df.dropna(軸= 1、脱穀= N)未満のn行すべての非NULL値を削除します
  • df.fillna(x):xですべてNULL値のデータフレームのオブジェクトを交換
  • s.astype(フロート):シリーズに浮かぶようにデータ型を変更
  • s.replace(1、「1」):すべて1に等しい値の代わりに「1」を有します
  • s.replace([1,3]、[ '1'、 '3']):1の代わりに '1' と、 '3' を有する代わりに3
  • df.rename(カラム=ラムダX、X + 1):質量変化カラム名
  • df.rename(列= {「古い名」:「新しい新しい名前」}):選択列名を変更します
  • df.set_index( 'column_one'):インデックス列を変更
  • df.rename(インデックス=ラムダX:X + 1):一括リネームインデックス

データ処理:フィルター、ソートやGROUPBY

  • DF [COL]> 0.5 DF]:選択COLカラムは0.5より大きい値
  • デフォルトで昇順にソートCOL1列のデータ、:df.sort_values(COL1)
  • df.sort_values(COL2、昇順=偽):降順にデータ列COL1に従って
  • df.sort_values([COL1、COL2]、昇順=真、偽):最初の昇順COL1列によって、COL2降順は、データに応じ
  • df.groupby(COL)は:列COLによってグループ化されたGROUPBYのオブジェクトの1つを返します。
  • df.groupby([COL1、COL2):複数のオブジェクトによって返品グループ化されるカラムGROUPBY
  • df.groupby(COL1)COL2]:カラムCOL1によってRETURN基、カラム手段のCOL2
  • COL2及びCOL3カラムCOL1によってグループを作成するために、ピボットテーブルの最大値、及び計算:df.pivot_table(インデックス= COL1、値= [COL2、COL3]、aggfunc = max)を
  • df.groupby(COL1).agg(np.meanは):列COL1でグループ化されたすべての列の平均値を返します。
  • data.apply(np.mean):データフレームアプリケーション機能np.meanの各列
  • data.apply(np.max、軸= 1):np.maxデータフレームの応用機能の行ごとに

データマージ

  • df1.append(DF2):DF2がDF1の行の末尾に追加
  • df.concat([DF1、DF2]、軸= 1):DF1の端部にDF2列を追加
  • df1.join(DF2、=のCOL1に、どのように= '内部'):DF1とDF2列の列のSQL実行形式に参加

統計

  • df.describe():列の要約統計量のデータ値を参照してください
  • df.mean():すべての列の平均値を返します。
  • df.corrは():行と列の間の相関係数を返します。
  • df.count():各列の非ヌル値の数を返します
  • df.max():各列の最大値を返します
  • df.min():各列の最小値を返します
  • df.medianは():各列の中央値を返します。
  • df.std():各列の標準偏差を返します

おすすめ

転載: blog.51cto.com/13132323/2447986