10分にはパンダを理解します

マスターパンダに10分(上) - 公式サイトからAPI

A、numpyのとパンダ

numpyの行列計算ライブラリは、パンダはパンダの紹介があり、Baiduの百科事典に、データ解析ライブラリです、です。

パンダnumpyのは、ツールに基づいて作成されたデータ分析タスクを解決するためのツールです。パンダは、大規模なライブラリを含め、いくつかの標準的なデータモデルは、大規模なデータセットを効率的に動作するために必要なツールを提供します。パンダは、多くの機能を提供し、方法は迅速かつ容易にデータを処理するために私たちを有効にします。あなたはすぐにそれがPythonが強力で効率的なデータ解析環境になるように重要な要因の一つであることがわかります。

第二に、データの種類

numpyの パンダ
nに対応ndArray次元マトリックス (一次元アレイ、または値KVと同様)シリーズ
ndArrayのndArrayの一つが、numpyの中に多くのデータタイプがあるのみ データフレーム(CSVデータフレームを使用してデータを読みます)

第二に、APIの公式サイト

2.1.Object craetion

numpyの開発に基づいたパンダは、私たちはnumpyのを導入されたパンダを紹介したい一方であるため

import numpy as np
import pandas as pd

私たちは、整数インデックスシリーズを作成します

s = pd.Series([1,3,5,np.nan,6,8])
print(s)

カラムはnumpyの、インデックス行、列のアレイを使用して、データフレームのタイプを作成します

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
print(df)

ここで作成するための別の方法があります

df2 = pd.DataFrame({
    'A':1.,
    'B':pd.Timestamp('20130102'),
    'C':pd.Series(1,index=list(range(4)),dtype='float32'),
    'D':np.array([3]*4,dtype='int32'),
    'E':pd.Categorical(["test","train","test","train"]),
    'F':'foo'
})
print(df2)

私たちの当初からの眺め、または尾からの眺め

df.head()
df.tail(3)

シリーズ使用to_numpy()フォーマットはndArrayに変換され、

df.to_numpy()

当社のデータフレームフォーマットは、あなたが変換すること)(to_numpy使用することができます

df2.to_numpy()

df.describeビューのデータフレームのプロパティを使用します

df.describe()

A T属性は、データフレームの転置を表示することができます

df.T

使用sort_indexは、指定された0軸寸法がカラムでソート、指定された軸の寸法がソート、Falseに昇順逆の順序として、行によって真陽性配列をソートされた行インデックスによって分類することができ

df.sort_index(axis=1,ascending=False)

値順

df.sort_values(by='B')
2.2.Selection

当社標準のPython / numpyのオプションを発現することを注記は膨大な量のデータは、我々は間接的に取得データ.AT、.iat、.LOCと.ilocを使用するかどうかを確認することです

取得

コラムへの直接アクセス

df['A']

スライス買収

df[0:3]

ラベルによる選択

ラベル行を取得します。

df.loc[dates[0]]
位置によって2.3.Select

いずれかのインデックス位置から得られました

df.iloc[3]

場所はまだ道やスライスをランク付けすることができます

2.4.Booleanインデックス

ブールセレクタ

df[df.A>0]

我々は、()メソッドISINパンダテーブルによってフィルタリングすることができます

df2=df.copy()//拷贝
df2['E']=['one','two','three','four','five']//插入新列
df2[df2['E'].isin('two','three')] //进行选择过滤
2.5.Setting

新しい列セットを設定します

私たちの列がシリーズフォーマットに相当し、今はパンダラインが二次元シリーズのカプセル化と等価である見つけます

s1 = pd.Series([1,2,3,4],index=pd.date_range('20130102',periods=4))
df['F']=s1

タブの設定値

df.at[dates[0],'A']=0

値を見つけるには

df.iat[0,1]=0
2.6.Missingデータ

データ値が欠落し、パンダは本来欠落値を表すために使用さnp.nan、算出することができないような、それがナンの代わりに使用することができます

REINDEX再建

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

データ損失の行を削除します

df1.dropna(how='any')

データの欠落を記入

df1.fillna(value=5)

NAかどうかを判断BOOL

df1.isna(df1)
2.7.operations

平均、軸は、行または列の平均によれば、0に設定されています

df.mean(0)
df.mean(1)

最初の2つの値を除去し、順次、最初の4つの値を削除するために、二回次のシフトが行われます

s=pd.Series([1,3,5,np.nan,6,8],index=dates)
s=s.shift(2)
s=s.shift(2)
s

おすすめ

転載: www.cnblogs.com/littlepage/p/11976815.html