多くの潜在的なユーザーのパンダは、SQLの知識を持っているので、この記事では、使用するいくつかの方法を提供することを意図しているので、パンダの例を、さまざまなSQL操作を実行します。
ファイル:tips.csv -
total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
輸入PDとしてパンダ のurl = ' tips.csv ' ヒント = pd.read_csv(URL) プリント(tips.head())
出力:
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
選択し(選択)
SQLでは、オプションは例えば、列のカンマ区切りリストを使用する(またはすべての列を選択)を完了することです -
SELECT total_bill、先端、喫煙、時間
のヒントFROM
LIMIT 5;
でパンダ、選択した列は、データフレームの列名を通過します-
ヒント[[ ' total_bill '、' 先端'、' 喫煙者'、' 時間' ]]。ヘッド(5)
完全なプログラム -
インポートPd等パンダ URL = ' tips.csv ' ヒント = pd.read_csv(URL) RS =ヒント[ ' total_bill '、' 先端'、' 喫煙者'、' 時間' ]]。ヘッド(5 ) プリント(RS)
出力:
total_bill tip smoker time
0 16.99 1.01 No Dinner
1 10.34 1.66 No Dinner
2 21.01 3.50 No Dinner
3 23.68 3.31 No Dinner
4 24.59 3.61 No Dinner
データフレームは、すべての列(SQL-などが表示されます何の列名のリストを呼び出していません*
)。
WHERE条件
ヒント時間= SELECT * FROM ' ディナー' LIMIT 5;
データフレームは、さまざまな方法でフィルタリングされてもよい; boolean型のインデックスを使用するのが最も直感的。
ヒント[ヒント[ ' 時間' ] == ' ディナー' ] .head(5)
完整的程序
インポートPd等パンダ URL = ' tips.csv ' ヒント = pd.read_csv(URL) RS =ヒント[ヒント[ ' 時間' ] == ' ディナー' ] .head(5 ) プリント(RS)
出力:
total_bill tip sex smoker day time size
0 16.99 1.01 Female No Sun Dinner 2
1 10.34 1.66 Male No Sun Dinner 3
2 21.01 3.50 Male No Sun Dinner 3
3 23.68 3.31 Male No Sun Dinner 2
4 24.59 3.61 Female No Sun Dinner 4
上記の文は、一連のでしょうTrue/False
DATAFRAMEにオブジェクト、およびすべての行を返しますTrue
。
GROUPBYをグループ化することにより、
これは、各グループのレコード数のデータセット全体を取得します。例えば、抽出性別へのクエリの数(すなわち、性別ごとにグループ化され) -
SELECTセックス、COUNT(* )
ヒントFROM
セックスBY GROUP。
でパンダと同等の文は次のようになります-
tips.groupby(' セックス').size()
完全なプログラム
輸入PDとしてパンダ のurl = ' tips.csv ' ヒント = pd.read_csv(URL) RS = tips.groupby(' セックス' ).size() プリント(RS)
出力:
sex
Female 2
Male 3
dtype: int64
最初のN行
使用してSQL(MySQLデータベース)LIMIT
前へ戻るn
行を
SELECT * ヒントFROM
LIMIT 5;
でパンダと同等の文は次のようになり
tips.head(5)
のは、完全なプログラムを見てみましょう
import pandas as pd url = 'tips.csv' tips=pd.read_csv(url) rs = tips[['smoker', 'day', 'time']].head(5) print(rs)
输出结果:
smoker day time
0 No Sun Dinner
1 No Sun Dinner
2 No Sun Dinner
3 No Sun Dinner
4 No Sun Dinner
这些是比较的几个基本操作,在前几章的Pandas库中学到的。