パンダの一般的な機能
プログラミング
2019-11-06 01:10:51
訪問数: null
データのインポート
- pd.read_csv(ファイル名):CSVファイルからデータをインポート
- pd.read_table(ファイル名):定義区切りのテキストファイルからデータをインポート
- pd.read_excel(ファイル名):Excelファイルからデータをインポート
- pd.read_sql(クエリ、connection_object):SQLテーブル/データベースからデータをインポート
- pd.read_json(json_string):JSON形式の文字列からデータをインポート
- pd.read_html(URL):抽出されたテーブルが形成しており、HTMLファイルや文字列をURLを解析
- pd.read_clipboard():クリップボードからコンテンツを取得し、そして(read_table合格)
- pd.DataFrame(辞書):辞書オブジェクトからデータをインポートは、キーがカラム名、値のデータであります
データのエクスポート
- df.to_csv(ファイル名):CSVファイルへのデータのエクスポート
- df.to_excel(ファイル名):Excelファイルへのエクスポートデータ
- df.to_sql(TABLE_NAME、connection_object):SQLテーブルへのエクスポートデータ
- df.to_json(ファイル名):JSON形式は、テキストファイルにデータをエクスポートします
テストオブジェクトを作成します。
- pd.DataFrame(np.random.rand(20,5)):5からなるオブジェクトの作成20データフレームの行乱数
- pd.Series(my_listという):イテラブルmy_listというのシリーズオブジェクトの作成
- df.index = pd.date_range(= df.shape '1900年1月30日'、期間[0]):日付インデックスを増加させます
データを確認し、チェック
データセレクター
- DF [COL]:カラム名、およびシリーズの形で列を返します
- DF [COL1、COL2]:データフレームの列の複数の形態を返します
- s.iloc [0]:場所によってデータを選択します
- s.loc [「index_one」]:押して[データのインデックス
- df.iloc [0:]:最初の行を返します
- df.ilocは[0,0]:最初の列の最初の要素を返します。
データクレンジング
- df.coumns = [ 'A'、 'B'、 'C']:カラム名を変更
- pd.isnull():NULLデータフレームの検査対象とブール配列を返します
- pd.notnull():非NULL値のデータフレームの検査対象とブール配列を返します
- df.dropnaは():すべての行がNULL値を含む削除します
- df.dropna(軸= 1):削除すべての列がヌル値を含みます
- df.dropna(軸= 1、脱穀= N)未満のn行すべての非NULL値を削除します
- df.fillna(x):xですべてNULL値のデータフレームのオブジェクトを交換
- s.astype(フロート):シリーズに浮かぶようにデータ型を変更
- s.replace(1、「1」):すべて1に等しい値の代わりに「1」を有します
- s.replace([1,3]、[ '1'、 '3']):1の代わりに '1' と、 '3' を有する代わりに3
- df.rename(カラム=ラムダX、X + 1):質量変化カラム名
- df.rename(列= {「古い名」:「新しい新しい名前」}):選択列名を変更します
- df.set_index( 'column_one'):インデックス列を変更
- df.rename(インデックス=ラムダX:X + 1):一括リネームインデックス
データ処理:フィルター、ソートやGROUPBY
- DF [COL]> 0.5 DF]:選択COLカラムは0.5より大きい値
- デフォルトで昇順にソートCOL1列のデータ、:df.sort_values(COL1)
- df.sort_values(COL2、昇順=偽):降順にデータ列COL1に従って
- df.sort_values([COL1、COL2]、昇順=真、偽):最初の昇順COL1列によって、COL2降順は、データに応じ
- df.groupby(COL)は:列COLによってグループ化されたGROUPBYのオブジェクトの1つを返します。
- df.groupby([COL1、COL2):複数のオブジェクトによって返品グループ化されるカラムGROUPBY
- df.groupby(COL1)COL2]:カラムCOL1によってRETURN基、カラム手段のCOL2
- COL2及びCOL3カラムCOL1によってグループを作成するために、ピボットテーブルの最大値、及び計算:df.pivot_table(インデックス= COL1、値= [COL2、COL3]、aggfunc = max)を
- df.groupby(COL1).agg(np.meanは):列COL1でグループ化されたすべての列の平均値を返します。
- data.apply(np.mean):データフレームアプリケーション機能np.meanの各列
- data.apply(np.max、軸= 1):np.maxデータフレームの応用機能の行ごとに
データマージ
- df1.append(DF2):DF2がDF1の行の末尾に追加
- df.concat([DF1、DF2]、軸= 1):DF1の端部にDF2列を追加
- df1.join(DF2、=のCOL1に、どのように= '内部'):DF1とDF2列の列のSQL実行形式に参加
統計
- df.describe():列の要約統計量のデータ値を参照してください
- df.mean():すべての列の平均値を返します。
- df.corrは():行と列の間の相関係数を返します。
- df.count():各列の非ヌル値の数を返します
- df.max():各列の最大値を返します
- df.min():各列の最小値を返します
- df.medianは():各列の中央値を返します。
- df.std():各列の標準偏差を返します
転載: blog.51cto.com/13132323/2447986