パイソンパンダAPIドキュメント

略語とキーパッケージのインポート 
略称:

DF:任意のオブジェクトパンダDATAFRAME 
S:パンダシリーズ任意のオブジェクトは、 
パッケージをインポートします。

PDのように輸入パンダ 
NPとしてインポートnumpyの

インポートデータ 
pd.read_csv(ファイル名):CSVファイルからデータをインポート 
定義する区切られたテキストファイルからデータをインポート:pd.read_table(ファイル名) 
pd.read_excel(ファイル名):Excelファイルからのインポートデータを 
pd.read_sql(クエリ、connection_object) :/インポートデータのリポジトリからSQLテーブル 
pd.read_jsonは(json_string):インポートデータを文字列JSONフォーマットから 
pd.read_html(URL):URL、HTMLファイルや文字列を解析し、テーブルとテーブルを抽出 
pd.read_clipboard(): )(クリップボードからコンテンツを取得し、read_table渡された 
辞書オブジェクトからデータをインポートし、キーがカラム名、値のデータである:pd.DataFrame(dictのは)

エクスポートデータ 
df.to_csv(ファイル名):CSVファイルへのエクスポートデータ 
のExcelファイルへのエクスポートデータ:df.to_excel(ファイル名) 
df.to_sql(TABLE_NAME、connection_object):SQLテーブルへのエクスポートデータ 
df.to_json(ファイル名):JSON形式へテキストファイルへのエクスポートデータ

作成テストは、オブジェクト 
5からなる物体20データフレームの行乱数作成:pd.DataFrame(np.random.rand(20,5)) 
pd.Series(my_listという)を:からシリーズオブジェクトを作成しイテレート可能オブジェクトmy_listという 
df.index = pd.date_range( '1900年1月30日'、期間 = df.shape [0]): 日付インデックスを増加させます

、検査データを参照 
正面オブジェクトデータフレームN行:df.headを(N) 
(N)df.tail:Nビュー最後の行データフレームオブジェクト 
df.shapeを():行と列の数は、表示 
(df.infoを):インデックス、データの種類とメモリ情報を参照してください 
df.describeを():数値列の要約統計量を参照してください 
s.value_counts(dropna =偽):シリーズはユニークな値とカウントオブジェクトを参照してください 
df.apply(pd.Series.value_countsを):参照してください。オブジェクトのデータフレーム内の各列に一意の値をカウント

データ選択 
DF [COL]:カラム名、シリーズ列として返し 
[COL1、COL2] DF : データフレームの列の複数の形態を返し 
s.iloc [0]:位置によって選択データ 
s.locを[「index_one 「]:インデックスデータを選択し 
、[df.iloc 0:]:最初の行戻す 
] 0,0 [df.ilocを:最初の列の最初の要素を返します

データクリーニング 
df.columnsは= [ 'A'、 ' B'、 'C']: カラム名の名前を変更 
pd.isnullを():NULLデータフレームの検査対象とブール配列戻り 
pd.notnullを():チェックデータフレームのオブジェクトの非ヌル値、およびブール配列返す 
(df.dropnaを):すべての行がヌル値含有削除 
df.dropna(軸= 1):すべての列がNULL値を含む削除 
df.dropna(軸= 1、脱穀= N)未満のn行すべての非NULL値を削除する 
df.duplicated():重複データレコード解析 
df.drop_duplicatesを():データレコードを削除すると、特定の列またはすべてを指定することができる 
ことにより、X:df.fillna(X)をすべてNULL値データフレームオブジェクト交換 
s.astype(フロート):シリーズに浮遊するデータの種類を変更する 
s.replace(1、「1」) :の代わりに全ての1に等しい「1」の値と 
s.replaceはありません( [1,3]、[ '1' 、 '3']): 1の代わりに'1'が、代わりに、 '3'と3 
df.rename(ラムダ列= X:X + 1):バッチは、列名の変更 
DFを。リネーム(列= { 'OLD_NAME' : 'new_master_ hostは名前'}): 選択列名変更 
df.set_index( 'column_oneを'):インデックス列変更する 
df.renameを(インデックス=ラムダX、X + 1): バッチ・リネーム指数

データ処理:ソートフィルタ、およびGROUPBY 
DF [DF [COL]> 0.5]:COLカラムは0.5より大きい値を選択し 
、デフォルトの昇順で、COL1ソート列のデータ:df.sort_values(COL1)を 
df.sort_values(COL2、昇順=偽):COL1降順リストデータに従って 
df.sort_values([COL1、COL2]、上昇は=真、偽): 最初の昇順COL1列によって、COL2降順は、データに応じ 
df.groupby(COL):戻りますカラムGROUPBY COLによってグループ化されたオブジェクトの一 
GROUPBYの複数の列グループ化オブジェクトを返し:df.groupby([COL1、COL2]) 
[COL2] df.groupby(COL1)を:カラムCOL1によってリターン基、COL2列平均 
df.pivot_table(インデックス= COL1を、値= [COL2、COL3]、aggfunc = MAX): COL2及びCOL3列COL1、によってグループを作成し、最大ピボット算出 
df.groupby(COL1)を。 AGG(np.meanは):カラムCOL1パケットによってすべての列の平均値を返し 
data.apply(np.mean):データフレームアプリケーション機能np.meanの各列に 
data.apply(np.max、軸= 1):アプリケーション機能np.maxデータフレームの行ごとに

結合データ 
df1.append(DF2):DF2テールDF1のに行を追加 
df.concat([DF1、DF2] :軸= 1) DF1尾DF2する列を追加 
df1.join(DF2を=のCOL1に、どのように=「内部 」): 実行SQLはDF1とDF2列の列を形成するために参加します

統計 
df.describe():要約カラム統計のデータ値表示 
)(df.meanを:すべての列の平均を返し 
)(df.corr:列と列の間の相関係数を返しは 
(df.count):各列を返します非NULL値の数 
df.max():各列の最大値を返し 
df.min()は、各列の最小値を返す 
)df.medianを(各列のビット数を返す 
(df.std)各列の標準偏差を返します

おすすめ

転載: www.cnblogs.com/feiqixia/p/11241925.html