Pandas データの前処理とデータの集計とグループ化の操作の放課後の演習への回答

Pandas データの前処理とデータの集計とグループ化の操作の放課後の演習への回答

第4章

ここに画像の説明を挿入

ここに画像の説明を挿入

短い回答の質問
短い回答の質問
1. データの前処理のプロセスでは、データの実際の状況に応じて適切な処理方法が選択されます。一般的に使用される前処理操作には、データ クリーニング、データのマージ、データの再整形、データ変換などが含まれます。これらの操作には、NULL 値や欠損値の検出、繰り返し値の処理、データ クリーニング プロセスでの外れ値の処理など、さまざまなデータ処理メソッドも含まれています。
2. Pandas で一般的に使用されるデータ マージ操作は次のとおりです。 concat() 関数は 1 つの軸に沿って複数のオブジェクトをスタックすることを意味し、merge() 関数は 1 つ以上のキーに従って異なるオブジェクトをマージすることを意味し、join() メソッドはそれを意味します。はインデックスまたは指定された列に従ってデータをマージすることを意味し、combine_first() メソッドはマージされたデータを埋めることを意味します。
プログラムの質問
1. 回答:
Pandas を pd としてインポート

numpyをnpとしてインポート

group_a = pd.DataFrame({'A': [2,3,5,2,3],

                         'B': ['5',np.nan,'2','3','6'],

                         'C': [8,7,50,8,2],

                       'key': [3,4,5,2,5]})

group_b = pd.DataFrame({'A': [3,3,3],

                    'B': [4,4,4],

                    'C': [5,5,5]})

印刷(グループ_a)

印刷(グループ_b)

2.回答案:
group_a = group_a.combine_first(group_b)

グループa

3.回答案:
group_a.rename(columns={'key':'D'})

第5章

ここに画像の説明を挿入

ここに画像の説明を挿入
短い回答の質問
1. グループ集計のプロセスは、通常、分割、適用、およびマージです。分割は、特定のルールに従ってデータ セットをいくつかのグループに分割すること、アプリケーションは、グループ化されたデータに対して一連の操作を実行するプロセス、マージは、これらの操作の結果を統合することです。

2. 一般的に使用されるグループ化方法は主に 4 つあります。リストまたは配列です。リストまたは配列の長さは、グループ化の軸の長さと一致する必要があります。DataFrame の列の名前、ディクショナリまたはシリーズです。オブジェクトと関数です。

プログラムの質問
1. 回答:
Pandas を pd としてインポート

スタッドネットデータ = pd.DataFrame({'学年':['新入生','二年生','三年生',

                                        '大四','大二','大三',

                                         '大一','大三','大四'],

                               '姓名':['李宏卓','李思真','张振海',

                                       '赵鸿飞','白蓉','马腾飞',

                                       '张晓凡','金紫萱','金烨'],

                               '年龄':[18,19,20,21,

                                        19,20,18,20,21],

                               '身高':[175,165,178,175,

                                       160,180,167,170,185],

                               '体重':[65,60,70,76,55,

                                       70,52,53,73]})

データ = スタッドネットデータ.groupby('グレード')

Freshman = dict([x for x in data])['大一']

プリント(新入生)

2. 答え:
data = data.apply(max)

del データ['グレード']

印刷(データ)

3. 答え:
Junior = dict([x for x in data])['ジュニア']

print(Freshman[‘体重’].apply(‘mean’))

print(Junior[‘体重’].apply(‘mean’))

つづく

おすすめ

転載: blog.csdn.net/qq_68890680/article/details/130177345