マスターパンダに10分(上) - 公式サイトからAPI
A、numpyのとパンダ
numpyの行列計算ライブラリは、パンダはパンダの紹介があり、Baiduの百科事典に、データ解析ライブラリです、です。
パンダnumpyのは、ツールに基づいて作成されたデータ分析タスクを解決するためのツールです。パンダは、大規模なライブラリを含め、いくつかの標準的なデータモデルは、大規模なデータセットを効率的に動作するために必要なツールを提供します。パンダは、多くの機能を提供し、方法は迅速かつ容易にデータを処理するために私たちを有効にします。あなたはすぐにそれがPythonが強力で効率的なデータ解析環境になるように重要な要因の一つであることがわかります。
第二に、データの種類
numpyの | パンダ |
---|---|
nに対応ndArray次元マトリックス | (一次元アレイ、または値KVと同様)シリーズ |
ndArrayのndArrayの一つが、numpyの中に多くのデータタイプがあるのみ | データフレーム(CSVデータフレームを使用してデータを読みます) |
第二に、APIの公式サイト
2.1.Object craetion
numpyの開発に基づいたパンダは、私たちはnumpyのを導入されたパンダを紹介したい一方であるため
import numpy as np
import pandas as pd
私たちは、整数インデックスシリーズを作成します
s = pd.Series([1,3,5,np.nan,6,8])
print(s)
カラムはnumpyの、インデックス行、列のアレイを使用して、データフレームのタイプを作成します
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
print(df)
ここで作成するための別の方法があります
df2 = pd.DataFrame({
'A':1.,
'B':pd.Timestamp('20130102'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(["test","train","test","train"]),
'F':'foo'
})
print(df2)
私たちの当初からの眺め、または尾からの眺め
df.head()
df.tail(3)
シリーズ使用to_numpy()フォーマットはndArrayに変換され、
df.to_numpy()
当社のデータフレームフォーマットは、あなたが変換すること)(to_numpy使用することができます
df2.to_numpy()
df.describeビューのデータフレームのプロパティを使用します
df.describe()
A T属性は、データフレームの転置を表示することができます
df.T
使用sort_indexは、指定された0軸寸法がカラムでソート、指定された軸の寸法がソート、Falseに昇順逆の順序として、行によって真陽性配列をソートされた行インデックスによって分類することができ
df.sort_index(axis=1,ascending=False)
値順
df.sort_values(by='B')
2.2.Selection
当社標準のPython / numpyのオプションを発現することを注記は膨大な量のデータは、我々は間接的に取得データ.AT、.iat、.LOCと.ilocを使用するかどうかを確認することです
取得
コラムへの直接アクセス
df['A']
スライス買収
df[0:3]
ラベルによる選択
ラベル行を取得します。
df.loc[dates[0]]
位置によって2.3.Select
いずれかのインデックス位置から得られました
df.iloc[3]
場所はまだ道やスライスをランク付けすることができます
2.4.Booleanインデックス
ブールセレクタ
df[df.A>0]
我々は、()メソッドISINパンダテーブルによってフィルタリングすることができます
df2=df.copy()//拷贝
df2['E']=['one','two','three','four','five']//插入新列
df2[df2['E'].isin('two','three')] //进行选择过滤
2.5.Setting
新しい列セットを設定します
私たちの列がシリーズフォーマットに相当し、今はパンダラインが二次元シリーズのカプセル化と等価である見つけます
s1 = pd.Series([1,2,3,4],index=pd.date_range('20130102',periods=4))
df['F']=s1
タブの設定値
df.at[dates[0],'A']=0
値を見つけるには
df.iat[0,1]=0
2.6.Missingデータ
データ値が欠落し、パンダは本来欠落値を表すために使用さnp.nan、算出することができないような、それがナンの代わりに使用することができます
REINDEX再建
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
データ損失の行を削除します
df1.dropna(how='any')
データの欠落を記入
df1.fillna(value=5)
NAかどうかを判断BOOL
df1.isna(df1)
2.7.operations
平均、軸は、行または列の平均によれば、0に設定されています
df.mean(0)
df.mean(1)
最初の2つの値を除去し、順次、最初の4つの値を削除するために、二回次のシフトが行われます
s=pd.Series([1,3,5,np.nan,6,8],index=dates)
s=s.shift(2)
s=s.shift(2)
s