データフレーム
列の順序集合を含むのテーブル型パンダのデータフレームのデータ構造は、各列が異なる値型(数値、文字列、ブール値、等)、行インデックスは列インデックスを有するデータフレームであってもよい、とすることができますシリーズで構成辞書として見られます。
シリーズ
これは、データのセット(numpyの様々なデータタイプ)とタグ(すなわち、インデックス)のコンポーネントに関連するデータのセットによって、一次元アレイと同様の目的です。データの唯一の簡単なセットでもを製造することができるシリーズオブジェクト
練習
import pandas as pd
import numpy as np
[5]:
Seriesオブジェクトの作成
s1 = pd.Series([4,6,-5,3])
print(s1)
0 4
1 6
2 -5
3 3
dtype: int64
[8]で:
シリーズの値を取得します。
s1.values#获取值
[8]アウト:
array([ 4, 6, -5, 3], dtype=int64)
[9]で:
シリーズ・インデックスを取得します
s1.index#获取索引
[9]アウト:
RangeIndex(start=0, stop=4, step=1)
[10]で:
Seriesオブジェクトの指定したインデックスの作成
s2 = pd.Series([4.0,6.5,212,2.6],index=['a','b','c','d'])#指定索引
[11]で:
print(s2)
a 4.0
b 6.5
c 212.0
d 2.6
dtype: float64
[12]で:
シリーズのインデックス値によると、
s2["a"]#根据索引取值
[12]アウト:
4.0
[15]で:
s2[['c','d']]#取多个索引值
[15]アウト:
c 212.0
d 2.6
dtype: float64
[16]で:
シリーズのインデックスかどうかを確認
'c' in s2#判断索引是否在Series
[16]アウト:
True
[17]で:
'e' in s2
[17]アウト:
False
[18]で:
シリーズは、固定長命じ辞書として見ることができます
#series可以看成一个定长的有序字典
dic1 = {"apple":5,"pen":'3',"applenpen":10}
s3 = pd.Series(dic1)
print(s3)#构建后顺序是一定的,不能改变
apple 5
pen 3
applenpen 10
dtype: object
[20]で:
データフレームの構築
#DataFrame 构造
data = {'year':[2015,2016,2017,2018],
'income':[1000,2000,3000,4000],
'pay':[100,200,300,400]}
df1 = pd.DataFrame(data)
df1
[20]アウト:
年 | 所得 | 支払う | |
---|---|---|---|
0 | 2015 | 1000年 | 100 |
1 | 2016 | 2000 | 200 |
2 | 2017 | 3000 | 300 |
3 | 2018 | 4000 | 400 |
[22]で:
numpyのビルドデータフレームを使用してください
#使用numpy构建dataframe
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2
'''
shape是查看数据有多少行多少列
reshape()是数组array中的方法,作用是将数据重新组织
'''
[22]アウト:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 0 | 1 | 2 | 3 |
1 | 4 | 5 | 6 | 7 |
2 | 8 | 9 | 10 | 11 |
[24]で:
指定されたインデックスとヘッド(最初の列の内容)建設データフレーム
#指定索引和表头(第一列内容)
df3 = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=["金","木","水","火"])
df3
[24]アウト:
ゴールド | 木材 | 水 | 火災 | |
---|---|---|---|---|
A | 0 | 1 | 2 | 3 |
B | 4 | 5 | 6 | 7 |
C | 8 | 9 | 10 | 11 |
[27]で:
データフレームプロパティ
#DataFrame的属性
df3.columns#列
#DataFrame的属性
df3.columns#列
[35]アウト:
Index(['金', '木', '水', '火'], dtype='object')
[28]で:
[28]アウト:
Index(['a', 'b', 'c'], dtype='object')
[29]に
df3.values#值,二位数组形式
[29]アウト:
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
[30]で:
df3.describe
[30]アウト:
<bound method NDFrame.describe of 金 木 水 火
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11>
[31]で:
トランスポーズ
#转置
df3.T
[31]アウト:
A | B | C | |
---|---|---|---|
ゴールド | 0 | 4 | 8 |
木材 | 1 | 5 | 9 |
水 | 2 | 6 | 10 |
火災 | 3 | 7 | 11 |
[32]で:
シーケンス
#排序
df3.sort_index(axis=1)#axis=1是对列排序
[32]アウト:
木材 | 水 | 火災 | ゴールド | |
---|---|---|---|---|
A | 1 | 2 | 3 | 0 |
B | 5 | 6 | 7 | 4 |
C | 9 | 10 | 11 | 8 |
[33]で:
df3.sort_index(axis=0)#axis=0是对行排序
[33]アウト:
ゴールド | 木材 | 水 | 火災 | |
---|---|---|---|---|
A | 0 | 1 | 2 | 3 |
B | 4 | 5 | 6 | 7 |
C | 8 | 9 | 10 | 11 |
[34]で:
#对某一列排序
df3.sort_index(by="金")
c:\users\wuzs\appdata\local\programs\python\python36-32\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: by argument to sort_index is deprecated, please use .sort_values(by=...)
[34]アウト:
ゴールド | 木材 | 水 | 火災 | |
---|---|---|---|---|
A | 0 | 1 | 2 | 3 |
B | 4 | 5 | 6 | 7 |
C | 8 | 9 | 10 | 11 |