パンダのデータを1つの記事にマージする
データビジネス要件の実際の処理では、SQLの接続クエリ機能と同様に、複数のテーブルを接続してからデータの処理と分析を実行するという要件に遭遇することがよくあります。
Pandasは、この機能を実現するためのいくつかの方法も提供しています。最も有名で広く使用されている方法は、マージです。この記事では、以下の4つの方法とパラメーターについて、実際の事例から詳しく説明します。
- マージ
- 追加
- 参加する
- Concat
は、便利なように、記事の最後にこの記事のソースコードを取得する方法を提供します。記事ディレクトリ
データ分析のためにライブラリをインポートするときは、これら2つのライブラリをインポートする必要があり、国際的な慣行が一般的です。
import pandas as pd
import numpy as np
— 01 —
マージ
公式パラメーター
公式に提供されているマージ関数のパラメーターは次のとおりです
。以下では、ケースを通じていくつかの重要なパラメーターの使用について説明します。
DataFrame.merge(left, right,
how='inner', # {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’
on=None,
left_on=None, right_on=None,
sort=False,
suffixes=('_x', '_y'))
シミュレーションデータ
4セットのデータの違いに注意してください
デフォルトのパラメータを使用する
2つの異なる書き込み方法は同じ効果があります
パラメータ方法
- howパラメータには4つの値があります:
- 内側(デフォルト)
- アウター
- 正しい
- 左
上のパラメータ
接続に使用される列インデックス列名は、SQLの2つのテーブルの同じフィールド属性と同様に、2つのデータフレームデータに同時に存在する必要があります。
指定されていないか、他のパラメーターが指定されていない場合、2つのデータフレームデータ接続キーと同じキー
onパラメータは単一のフィールドです
別の例:
onパラメーターは複数のフィールドのリストです
パラメータlefton / righton
パラメータサフィックス
マージする場合、1つの列と2つのテーブルの名前は同じですが、値が異なります。両方を保存する場合は、suffixメソッドを使用します。デフォルトは_x、_yで、自分で指定できます。
パラメータの並べ替え
接続時に同じキーの値を並べ替える
— 02 —
concat
公式パラメータ
concatメソッドは、2つのDataFrameデータフレームのデータをマージすることです。
- axisパラメーターを使用して、行方向と列方向のどちらでマージするかを指定します
- パラメータignore_indexは、マージされたインデックスの再配置を実現します
データを生成する
マージ軸を指定します
インデックスの変更
結合パラメータsort-attributesort
— 03 —
追加
公式パラメータ
基本的な使い方
data3.append(data4) # 等同于pd.append([data3, data4]) 忽略pandas版本的警告
インデックスの変更-自然数の並べ替え
data3.append(data4, ignore_index=True) # 设置参数
sort = True-属性のソート
data3.append(data4) # 默认对字段属性排序
— 04 —
参加する
公式パラメータ
同じインデックスを介してマージ
同じフィールド属性は接尾辞を参照します
同じフィールドがインデックスになります
同じフィールドを1回保持する
練習を容易にするために、パブリックアカウント「PythonDataWay」の舞台裏で「20200917」に返信して、この記事のソースコードファイルを入手できます。
- - - - -終わり - - - - -