パンダの基礎、Serires、データフレーム

データフレーム

列の順序集合を含むのテーブル型パンダのデータフレームのデータ構造は、各列が異なる値型(数値、文字列、ブール値、等)、行インデックスは列インデックスを有するデータフレームであってもよい、とすることができますシリーズで構成辞書として見られます。

シリーズ

これは、データのセット(numpyの様々なデータタイプ)とタグ(すなわち、インデックス)のコンポーネントに関連するデータのセットによって、一次元アレイと同様の目的です。データの唯一の簡単なセットでもを製造することができるシリーズオブジェクト

練習

import pandas as pd
import numpy as np
    

[5]:

Seriesオブジェクトの作成

s1 = pd.Series([4,6,-5,3])
print(s1)
0    4
1    6
2   -5
3    3
dtype: int64

[8]で:

シリーズの値を取得します。

s1.values#获取值

[8]アウト:

array([ 4,  6, -5,  3], dtype=int64)

[9]で:

シリーズ・インデックスを取得します

s1.index#获取索引

[9]アウト:

RangeIndex(start=0, stop=4, step=1)

[10]で:

Seriesオブジェクトの指定したインデックスの作成

s2 = pd.Series([4.0,6.5,212,2.6],index=['a','b','c','d'])#指定索引

[11]で:

print(s2)
a      4.0
b      6.5
c    212.0
d      2.6
dtype: float64

[12]で:

シリーズのインデックス値によると、

s2["a"]#根据索引取值

[12]アウト:

4.0

[15]で:

s2[['c','d']]#取多个索引值

[15]アウト:

c    212.0
d      2.6
dtype: float64

[16]で:

シリーズのインデックスかどうかを確認

'c' in s2#判断索引是否在Series

[16]アウト:

True

[17]で:

'e' in s2

[17]アウト:

False

[18]で:

シリーズは、固定長命じ辞書として見ることができます

#series可以看成一个定长的有序字典
dic1 = {"apple":5,"pen":'3',"applenpen":10}
s3 = pd.Series(dic1)
print(s3)#构建后顺序是一定的,不能改变
apple         5
pen           3
applenpen    10
dtype: object

[20]で:

データフレームの構築

#DataFrame 构造
data = {'year':[2015,2016,2017,2018],
       'income':[1000,2000,3000,4000],
       'pay':[100,200,300,400]}
df1 = pd.DataFrame(data)
df1

[20]アウト:

所得 支払う
0 2015 1000年 100
1 2016 2000 200
2 2017 3000 300
3 2018 4000 400

[22]で:

numpyのビルドデータフレームを使用してください

#使用numpy构建dataframe
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2
'''
shape是查看数据有多少行多少列
reshape()是数组array中的方法,作用是将数据重新组织
'''

[22]アウト:

0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11

[24]で:

指定されたインデックスとヘッド(最初の列の内容)建設データフレーム

#指定索引和表头(第一列内容)
df3 = pd.DataFrame(np.arange(12).reshape(3,4),index=['a','b','c'],columns=["金","木","水","火"])
df3

[24]アウト:

ゴールド 木材 火災
A 0 1 2 3
B 4 5 6 7
C 8 9 10 11

[27]で:

データフレームプロパティ

#DataFrame的属性
df3.columns#列
#DataFrame的属性
df3.columns#列

[35]アウト:

Index(['金', '木', '水', '火'], dtype='object')

[28]で:

[28]アウト:

Index(['a', 'b', 'c'], dtype='object')

[29]に

df3.values#值,二位数组形式

[29]アウト:

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

[30]で:

df3.describe

[30]アウト:

<bound method NDFrame.describe of    金  木   水   火
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11>

[31]で:

トランスポーズ

#转置
df3.T

[31]アウト:

A B C
ゴールド 0 4 8
木材 1 5 9
2 6 10
火災 3 7 11

[32]で:

シーケンス

#排序
df3.sort_index(axis=1)#axis=1是对列排序

[32]アウト:

木材 火災 ゴールド
A 1 2 3 0
B 5 6 7 4
C 9 10 11 8

[33]で:

df3.sort_index(axis=0)#axis=0是对行排序

[33]アウト:

ゴールド 木材 火災
A 0 1 2 3
B 4 5 6 7
C 8 9 10 11

[34]で:

#对某一列排序
df3.sort_index(by="金")
c:\users\wuzs\appdata\local\programs\python\python36-32\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: by argument to sort_index is deprecated, please use .sort_values(by=...)
  

[34]アウト:

ゴールド 木材 火災
A 0 1 2 3
B 4 5 6 7
C 8 9 10 11

おすすめ

転載: www.cnblogs.com/mrwuzs/p/11324510.html