データの構造
-
シリーズ:データのセットとタグ(すなわち、インデックス)のコンポーネントに関連するデータのセットによって、アレイと同様の目的です。
-
データフレーム:表形式のデータ構造とそのインデックス(行インデックスおよび列インデックス)からのデータセット。
作ります
-
シリーズ
モードリスト:着信のリスト、インデックスindex S2 = pd.Seriesによって指定([1,2,3,4]、インデックス= [ '、 'B'、 'C'、 'D'])
辞書方法:キーとして、キーデータラベルによって、値は、データ値であり、S3 = pd.Series({ '' :1、 'B':2 'C':3、 'D':4 }) -
データフレーム
モードリスト:着信/ネストされたリストのリスト、インデックスは、列指定されたインデックス
DF2 = pd.DataFrame([ ' '、 'A']、[ 'B'、 'B']、[「Cを'' C ']、[ ' D '' D ']、列= [' 小文字''資本']、インデックス= [ '' 2 '' 3 '' 4「])
辞書方法:キーと値のペアのように、キーは列インデックスであり、値が列のデータ値であり、行インデックスは、使用されるインデックスのセットであってもよい
データ= {「小文字」:[ '、「 B」、「C」、' D ']、'資本':[ '' B '' C '' D']}
DF3 = pd.DataFrame(データ、インデックス= [ '' 2 '' 3 '' 4「])
行、列、インデックスと値を取得します。
.columns列インデックス.INDEX行インデックス値.values
データ集録(***)
従来のデータ選択がある選択しながら列選択、行選択、ランクが 3つ。
- 列の選択:一般的な使用列名値DF [「A」] df.a(推奨されませんし、使用されていないスペースを含む漢字)
- 行選択:LOC使用またはILOC(LOC / ILOCが省略されてもよいです)
- LOC:インデックス左ラベルでラベルを取得したデータ、および右クローズクローズ
- ILOC:インデックス位置によって位置データ取得、左右の離れ閉じ**
例えば:
ser_obj = pd.Series(range(5), index=['a','b','c','d','e'])
ser_obj —— a 0
b 1
c 2
d 3
e 4
● 行索引 ser_obj.loc['b'] 1 ser_obj['b'](省略loc)
ser_obj.iloc[1] 1 ser_obj[1](省略iloc)
● 不连续索引时 —— 需要使用list ser_obj[['a','c']] / ser_obj[[1,3]]
●区别: ser_obj[1:3] b,c行 ser_obj['b':'d'] b,c,d行
同時に選択された行と列:
○インデックス名インデックスdf.loc使用行と列[ '、「3」]、[「注文番号」、「識別子」]
○使用位置指標df.iloc [0,1]、[0,2] ] df.iloc [:、[0,2]( 列位置不連続OH)
○スライスインデックス(使用位置)df.iloc [0:2、1 : 2]
ブールマスク(条件選択)
EG:
#找出说英语的国家
filter_condition = df['language'].str.contains('English') df[filter_condition]
#排名前20的国家
df[df['Happiness_Rank'] <= 20]
#输出第2行中为1,且第3行为3的列
(df_obj.loc[1,:]==1) & (df_obj.loc[2,:]==3)