データ処理ツールのpython - パンダ(データフレーム構造配列)

   コアモジュールは、操作対象配列パンダ(シリーズ)及びデータフレーム(データフレーム)です。配列は、データフィールド、少なくとも二つのフィールドを含むデータフレームのセットとして解釈することができる値(または配列)であります

データセット。

 

建設・シーケンス

1組又は均質のリストで構成されています

辞書を構築することにより2

3. numpyの構成された一次元配列

データブロックデータフレーム構築のカラムを通して4

例えば:

インポートPd等PANDAS
NP ASインポートnumpyの
GDP1 = pd.Series([2.8,3.01,8.99,8.59,5.18])
2.8 '上海':GDP2 = pd.Series({ '北京' 3.01 '広東'は8.99 、 '江蘇省':8.59、 '浙江省':5.18})
GDP3 = pd.Series(np.array((2.8,3.01,8.99,8.59,5.18)))
プリント(GDP1)
プリント(GDP2)
プリント(GDP3)

でる:

2.80 0 
1 3.01 
2 8.99 
3 8.59 
4 5.18 
DTYPE:のfloat64 
北京2.80 
上海3.01 
広東8.99 
江蘇8.59 
浙江5.18 
のfloat64:DTYPE 
0 2.80 
1 3.01 
2 8.99 
3 8.59 
4 5.18 
DTYPE:のfloat64を

次のいずれかの上に示すリスト、タプル、又は一次元配列、配列パターンの構成は、2つの結果を生成する、最初の列の配列に属するインデックス列(また、行番号として理解されるべき)

自動的に0から出発し、2番目の列は、配列の実際の値です。印刷スタイルの辞書構造は、第二の配列は、依然として2含有で差が第1の列は行番号ではないが、特定の行の名前(ラベル)、辞書に対応するキー、第二カラム配列の実際の値は、辞書に対応する値に、です。

 

一次元アレイの配列は、すべてのメソッドの一次元配列の要素のインデックスが連続して使用することができる取得、高い類似性を有し、かつ数学的および統計関数の配列は、配列で使用することができます。次のようにさらにシーケンスは、複数の他の治療法があります。

インポートPd等PANDAS
NP ASインポートnumpyの
GDP1 = pd.Series([2.8,3.01,8.99,8.59,5.18])
2.8 '上海':GDP2 = pd.Series({ '北京' 3.01 '広東'は8.99 、 '江蘇省':8.59、 '浙江省':5.18})
GDP3 = pd.Series(np.array((2.8,3.01,8.99,8.59,5.18)))
プリント(GDP1)
プリント(GDP2)
プリント( GDP3)
プリント( 'スタイル行番号配列:\ n'は、gdp1 [ 0,3,4])# gDP1用の最初の145個の要素削除
印刷( '配列線のスタイル名:\ n'は、 gdp2 [0,3,4])#削除のGDP2最初の145個の要素    のキーを抽出する辞書である
、gdp2 [[( '\ nはシーケンス線スタイル名'印刷 ' 上海' ' 「江蘇省『』浙江]])#  フェッチキーがすることである
:(numpyの関数\ n」は、np.log(gdp1によって)値を印刷」 #)が直接関数の結果により対応するように対応する撮影することができそのインデックスによって必要numpyの方法
プリント( 'numpyの関数で:\ N-'、np.mean(GDP1))     
プリント( 'メソッド配列:\ n'は、gdp1。平均値())#がメソッドのシーケンスはまたの使用をサポートしていることが分かります

でる:

行番号スタイルの配列:
  0 2.80 
3 8.59 
4 5.18 
DTYPE:のfloat64 
行名スタイルの配列:
 北京2.80 
江蘇8.59 
浙江5.18 
DTYPE:のfloat64 
行名スタイルの配列:
 上海3.01 
江蘇8.59 
浙江5.18 
DTYPE:のfloat64 
numpyの機能によって:
 0 1.029619 
1 1.101940。
2 2.196113 
3 2.150599。
4 1.644805。
DTYPE:のfloat64 
numpyの関数で:
 5.714 
メソッド配列:
 5.714

配列はオペランドシーケンス機能を必要とされる場合、一般的に好ましいnumpyの、配列スタイルラインの名前である場合、上記の点についてのコードは、インデックスの位置(行番号)を使用することができ、タグ(ライン名)インデックスを使用できることに注意してくださいモジュール、この点でパンダの相対的な不足ためのモジュールと、それは、統計コンピューティングのための配列である場合、両方の機能numpyのモジュールは、この方法は、シーケンスで使用することができます。一般的な選択肢

シーケンス法、numpyのそのような機能ながら、この方法は、歪度を算出するシーケンス番号、尖度配列より豊富であるためです。

 

データフレーム構造

   データは、本質的にデータの集合であり、各行が観測データセットを表し、データセットは、各変数の列を表します。データボックスで、整数、浮動小数点、文字や日時タイプとしてデータ・シーケンスの異なるタイプを格納するが、それらは唯一の均質なデータを格納することができるので、アレイおよび配列は、そのような利点を有することができません。構成データベースは、以下のように適用することができます。

1.ネストされたリストやタプルの設定

2.辞書構造

二次元配列構造により3

4. 外部データの構成を読み取ることによって。

例:

 

PD PANDAS ASインポート
NP ASインポートnumpyの
DF1 = pd.DataFrame([ 'ジョン・ドウ'、23、 'M']、[ 'ジョン・ドウ'、27 'M']、[ '王ウー'、26 '女性']])
DF2 = pd.DataFrame({'名前':['ジョー・スミス''ジョン・ドウ'' 5の王']、'年齢':[23,27,26]、'セックス「:[ 'M'、 'F'、 'F']})
DF3 = pd.DataFrame(np.array([[ 'ジョン・ドウ'、23、 'M']、[ 'ジョン・ドウ'、'27 '' F ']、['王ウー'26、' M ']]))
プリント('ネストされたリスト構造データブロック:\ N-」、DF1)
プリント(「辞書データブロック構造:\ N-」、DF2)
プリント( 「二次元アレイ構造データブロック:\ n」は、DF3)

でる:

ネストされたリスト構造のデータボックス:
     0 1 2 
0ジョー・スミス23男
1女27ジョン・ドウ
2王5 26女性の
辞書構造データボックス:
    名前年齢性別
0ジョー・スミス23男
1女27ジョン・ドウ
2王5女性26 
-D配列ボックス:
     0 1 2 
0ジョー・スミス23男
1女27ジョン・ドウ
2 Wangwu 26人の女性

コンフィギュレーションデータフレームがパンダデータフレームの機能モジュールを使用する必要がある、またはネストされたリスト構造のデータブロックによってタプル場合、各列目シート観測データフレームまたはタプルをネスト要素のリストを必要と;二次元アレイによって構成されている場合データブロックは、データフレームの各列のアレイの行に書き込む必要があり、データブロックは辞書で構成されている場合、辞書のキーフレームデータは、変数名を構成するコンフィギュレーションデータに対応する観測値。上記のコードは、データをブロックするように構成されたが、ネストされたリストを言うことができるが、タプルまたは二次元アレイは、データブロックに変換され、データ・ブロックは、0からN列番号に、具体的な変数名ではありません。だから、あなたは一般的に、その後、手動でデータフレームを構築するために好適な方法の辞書が必要な場合。

 

外部データを読みます

、より多くのことが次のレコードを戻ってくるデータフレームを構築するために、外部データの内容を読みます...

 

 

おすすめ

転載: www.cnblogs.com/tinglele527/p/11760822.html