Pythonのチュートリアル:データの専門家は、新しい旅を開くために役立つ20のパンダコード!
概要
パンダnumpyのは、ツールに基づいて作成されたデータ分析タスクを解決するためのツールです。データ分析の友人を行うには多くの使用Pythonのは、誰もがあなたがより迅速にデータを理解するために20行の共通パンダコードをまとめたため、ここで、パンダには見知らぬ人はいけません。
私は、次の3つのカテゴリに、ここでこれらの20頭のパンダのコードを持っています:
- 基本データ情報
- 基本データ処理
- データフレームを操作します
図1に示すように、基本的なデータ・セット読み取り(CSV、EXECL)
CSV#1
#読み取り
pd.DataFrame.from_csv( "CSV_File")
pd.read_csv( "CSV_File")
#書き込み
df.to_csv( "data.csv"、9月= #1 ""インデックス= false)を、低くないコンマを区切り標準
#EXECL
pd.read_excel( "excel_file")
df.to_execl( "data.xlsx"、SHEET_NAMEは= 'A')
図2に示すように、前記基本データ・セット
df.info()
3、基本的な統計
df.describe()
4、出力テーブルにデータフレーム(モジュールを表)
インポート集計集計
プリント(集計(PRINT_TABLE、ヘッダー=ヘッダ))
リストを含む#1 PRINT_TABLEリスト
フィールドの#ヘッダは、ヘッダに含まれます
5、すべてのフィールドを一覧表示します
df.columns
n行目の前と後に得られた6、
df.head前(n)は#N行
ライン#nの後df.tail(N)
7、機能により、位置特定データ
df.loc [FEATURE_NAMEへ]
#選択カラムの最初の行の"サイズ"
df.loc([0]、[ 'サイズ'])
df.iloc [N-】位置#
基本データ処理
8、欠損値を削除します
df.dropna(軸= 0、どのよう= '任意')
欠損値を置き換えるために、9、
df.replace(to_replace =なし、値=なし)
#値"to_replaceは、" "値"に置き換えられます
10、欠損値をチェックします
pd.isnull(オブジェクト)
位(配列がNaN、オブジェクト配列なし/ NaNの値)欠損値を検出します
11、フィールドを削除
df.drop( 'feature_variable_name'、軸= 1)
カラム1の行軸に#0、
12、オブジェクト型の値に変換します
pd.to_numeric(DF [「へのFEATURE_NAME」]、エラー=「強制」)
#は、計算を実行できるようにするには、数値オブジェクト型を変換する(彼らは文字列である場合)
13、numpyのアレイのデータフレームに変換
df.as_matrix()
データフレームを操作します
14、データフレームの機能
#すべてのデータの"高さ"は、2列の値によって乗算される
。1、DFは、[ "高"]適用(ラムダ高さ:2 *高さ)。
2、DEF乗算(X):
リターンX 2 *
DF [ "高さ「]。(乗算)を適用
15、命名から
#ここでは、データの3番目の列の名前を変更する"サイズ"
df.rename(列= {df.columns [2]: 'サイズ'}、インプレース= TRUE)
16、列のユニークなアイテムを取得します
「名前」は、唯一のエントリで得られたカラム#
DF [「名前」]。ユニークな ()
17、マルチレベル・アクセス
#ここで、選択された列、「名前」と「サイズ」で取得したデータから、
DF = new_df [[「名前」、「サイズ」]
18、統計データdf.sum(の一部)
df.min()
df.max()
df.idxmin()
df.idxmax()は、最大インデックス#戻る
df.mean()
df.median()
異なる列間df.corr()#相関係数を
DF [ 「サイズ」]。中央値
19、データの並べ替え
df.sort_values(昇順=偽)
20、ブール指標
DF [DF [ "サイズ"] == 5]#のブール指標
よりPythonのチュートリアルは、誰を更新していきます!