パイソンパンダAPIドキュメント

略語とキーパッケージのインポート
略称：

DF：任意のオブジェクトパンダDATAFRAME
S：パンダシリーズ任意のオブジェクトは、
パッケージをインポートします。

PDのように輸入パンダ
NPとしてインポートnumpyの

インポートデータ
pd.read_csv（ファイル名）：CSVファイルからデータをインポート
定義する区切られたテキストファイルからデータをインポート：pd.read_table（ファイル名）
pd.read_excel（ファイル名）：Excelファイルからのインポートデータを
pd.read_sql（クエリ、connection_object）：/インポートデータのリポジトリからSQLテーブル
pd.read_jsonは（json_string）：インポートデータを文字列JSONフォーマットから
pd.read_html（URL）：URL、HTMLファイルや文字列を解析し、テーブルとテーブルを抽出
pd.read_clipboard（）：）（クリップボードからコンテンツを取得し、read_table渡された
辞書オブジェクトからデータをインポートし、キーがカラム名、値のデータである：pd.DataFrame（dictのは）

エクスポートデータ
df.to_csv（ファイル名）：CSVファイルへのエクスポートデータ
のExcelファイルへのエクスポートデータ：df.to_excel（ファイル名）
df.to_sql（TABLE_NAME、connection_object）：SQLテーブルへのエクスポートデータ
df.to_json（ファイル名）：JSON形式へテキストファイルへのエクスポートデータ

作成テストは、オブジェクト
5からなる物体20データフレームの行乱数作成：pd.DataFrame（np.random.rand（20,5））
pd.Series（my_listという）を：からシリーズオブジェクトを作成しイテレート可能オブジェクトmy_listという
df.index = pd.date_range（ '1900年1月30日'、期間 = df.shape [0]）：日付インデックスを増加させます

、検査データを参照
正面オブジェクトデータフレームN行：df.headを（N）
（N）df.tail：Nビュー最後の行データフレームオブジェクト
df.shapeを（）：行と列の数は、表示
（df.infoを）：インデックス、データの種類とメモリ情報を参照してください
df.describeを（）：数値列の要約統計量を参照してください
s.value_counts（dropna =偽）：シリーズはユニークな値とカウントオブジェクトを参照してください
df.apply（pd.Series.value_countsを）：参照してください。オブジェクトのデータフレーム内の各列に一意の値をカウント

データ選択
DF [COL]：カラム名、シリーズ列として返し
[COL1、COL2] DF ：データフレームの列の複数の形態を返し
s.iloc [0]：位置によって選択データ
s.locを[「index_one 「]：インデックスデータを選択し
、[df.iloc 0：]：最初の行戻す
] 0,0 [df.ilocを：最初の列の最初の要素を返します

データクリーニング
df.columnsは= [ 'A'、 ' B'、 'C']：カラム名の名前を変更
pd.isnullを（）：NULLデータフレームの検査対象とブール配列戻り
pd.notnullを（）：チェックデータフレームのオブジェクトの非ヌル値、およびブール配列返す
（df.dropnaを）：すべての行がヌル値含有削除
df.dropna（軸= 1）：すべての列がNULL値を含む削除
df.dropna（軸= 1、脱穀= N）未満のn行すべての非NULL値を削除する
df.duplicated（）：重複データレコード解析
df.drop_duplicatesを（）：データレコードを削除すると、特定の列またはすべてを指定することができる
ことにより、X：df.fillna（X）をすべてNULL値データフレームオブジェクト交換
s.astype（フロート）：シリーズに浮遊するデータの種類を変更する
s.replace（1、「1」）：の代わりに全ての1に等しい「1」の値と
s.replaceはありません（ [1,3]、[ '1' 、 '3']）： 1の代わりに'1'が、代わりに、 '3'と3
df.rename（ラムダ列= X：X + 1）：バッチは、列名の変更
DFを。リネーム（列= { 'OLD_NAME' ： 'new_master_ hostは名前'}）：選択列名変更
df.set_index（ 'column_oneを'）：インデックス列変更する
df.renameを（インデックス=ラムダX、X + 1）：バッチ・リネーム指数

データ処理：ソートフィルタ、およびGROUPBY
DF [DF [COL]> 0.5]：COLカラムは0.5より大きい値を選択し
、デフォルトの昇順で、COL1ソート列のデータ：df.sort_values（COL1）を
df.sort_values（COL2、昇順=偽）：COL1降順リストデータに従って
df.sort_values（[COL1、COL2]、上昇は=真、偽）：最初の昇順COL1列によって、COL2降順は、データに応じ
df.groupby（COL）：戻りますカラムGROUPBY COLによってグループ化されたオブジェクトの一
GROUPBYの複数の列グループ化オブジェクトを返し：df.groupby（[COL1、COL2]）
[COL2] df.groupby（COL1）を：カラムCOL1によってリターン基、COL2列平均
df.pivot_table（インデックス= COL1を、値= [COL2、COL3]、aggfunc = MAX）： COL2及びCOL3列COL1、によってグループを作成し、最大ピボット算出
df.groupby（COL1）を。 AGG（np.meanは）：カラムCOL1パケットによってすべての列の平均値を返し
data.apply（np.mean）：データフレームアプリケーション機能np.meanの各列に
data.apply（np.max、軸= 1）：アプリケーション機能np.maxデータフレームの行ごとに

結合データ
df1.append（DF2）：DF2テールDF1のに行を追加
df.concat（[DF1、DF2] ：軸= 1） DF1尾DF2する列を追加
df1.join（DF2を=のCOL1に、どのように=「内部」）：実行SQLはDF1とDF2列の列を形成するために参加します

統計
df.describe（）：要約カラム統計のデータ値表示
）（df.meanを：すべての列の平均を返し
）（df.corr：列と列の間の相関係数を返しは
（df.count）：各列を返します非NULL値の数
df.max（）：各列の最大値を返し
df.min（）は、各列の最小値を返す
）df.medianを（各列のビット数を返す
（df.std）各列の標準偏差を返します

パイソンパンダAPIドキュメント

おすすめ