SQLと比べ28 |パンダ

多くの潜在的なユーザーのパンダは、SQLの知識を持っているので、この記事では、使用するいくつかの方法を提供することを意図しているので、パンダの例を、さまざまなSQL操作を実行します。

 

ファイル:tips.csv  -

total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4

 

輸入PDとしてパンダ

のurl = ' tips.csv ' 
ヒント = pd.read_csv(URL)
 プリント(tips.head())

出力:

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
 

選択し(選択)

SQLでは、オプションは例えば、列のカンマ区切りリストを使用する(またはすべての列を選択)を完了することです -

SELECT total_bill、先端、喫煙、時間
のヒントFROM 
LIMIT 5;

パンダ、選択した列は、データフレームの列名を通過します-

ヒント[[ ' total_bill '' 先端'' 喫煙者'' 時間' ]]。ヘッド(5)

完全なプログラム -

 
インポートPd等パンダ

URL = ' tips.csv ' 
ヒント = pd.read_csv(URL)
RS =ヒント[ ' total_bill '' 先端'' 喫煙者'' 時間' ]]。ヘッド(5 プリント(RS)

出力:

   total_bill   tip smoker    time
0       16.99  1.01     No  Dinner
1       10.34  1.66     No  Dinner
2       21.01  3.50     No  Dinner
3       23.68  3.31     No  Dinner
4       24.59  3.61     No  Dinner
 

データフレームは、すべての列(SQL-などが表示されます何の列名のリストを呼び出していません*)。

WHERE条件

ヒント時間= SELECT * FROM ' ディナー' LIMIT 5;
 

データフレームは、さまざまな方法でフィルタリングされてもよい; boolean型のインデックスを使用するのが最も直感的。

ヒント[ヒント[ ' 時間' ] == ' ディナー' ] .head(5)
 

 

完整的程序
インポートPd等パンダ

URL = ' tips.csv ' 
ヒント = pd.read_csv(URL)
RS =ヒント[ヒント[ ' 時間' ] == ' ディナー' ] .head(5 プリント(RS)

出力:

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
 

上記の文は、一連のでしょうTrue/FalseDATAFRAMEにオブジェクト、およびすべての行を返しますTrue

GROUPBYをグループ化することにより、

これは、各グループのレコード数のデータセット全体を取得します。例えば、抽出性別へのクエリの数(すなわち、性別ごとにグループ化され) -

SELECTセックス、COUNT(* 
ヒントFROM 
セックスBY GROUP。

パンダと同等の文は次のようになります-

tips.groupby(' セックス').size()
 

完全なプログラム

輸入PDとしてパンダ

のurl = ' tips.csv ' 

ヒント = pd.read_csv(URL)
RS = tips.groupby(' セックス' ).size()
 プリント(RS)

出力:

sex
Female    2
Male      3
dtype: int64
 

最初のN行

使用してSQL(MySQLデータベース)LIMIT前へ戻るn行を 

SELECT * ヒントFROM 
LIMIT 5;
 

 

パンダと同等の文は次のようになり 

tips.head(5)
 
 

のは、完全なプログラムを見てみましょう 

import pandas as pd

url = 'tips.csv'
tips=pd.read_csv(url)
rs = tips[['smoker', 'day', 'time']].head(5)
print(rs)

输出结果:

  smoker  day    time
0     No  Sun  Dinner
1     No  Sun  Dinner
2     No  Sun  Dinner
3     No  Sun  Dinner
4     No  Sun  Dinner
 

这些是比较的几个基本操作,在前几章的Pandas库中学到的。



おすすめ

転載: www.cnblogs.com/Summer-skr--blog/p/11705944.html