第4章
短い回答の質問
短い回答の質問
1. データの前処理のプロセスでは、データの実際の状況に応じて適切な処理方法が選択されます。一般的に使用される前処理操作には、データ クリーニング、データのマージ、データの再整形、データ変換などが含まれます。これらの操作には、NULL 値や欠損値の検出、繰り返し値の処理、データ クリーニング プロセスでの外れ値の処理など、さまざまなデータ処理メソッドも含まれています。
2. Pandas で一般的に使用されるデータ マージ操作は次のとおりです。 concat() 関数は 1 つの軸に沿って複数のオブジェクトをスタックすることを意味し、merge() 関数は 1 つ以上のキーに従って異なるオブジェクトをマージすることを意味し、join() メソッドはそれを意味します。はインデックスまたは指定された列に従ってデータをマージすることを意味し、combine_first() メソッドはマージされたデータを埋めることを意味します。
プログラムの質問
1. 回答:
Pandas を pd としてインポート
numpyをnpとしてインポート
group_a = pd.DataFrame({'A': [2,3,5,2,3],
'B': ['5',np.nan,'2','3','6'],
'C': [8,7,50,8,2],
'key': [3,4,5,2,5]})
group_b = pd.DataFrame({'A': [3,3,3],
'B': [4,4,4],
'C': [5,5,5]})
印刷(グループ_a)
印刷(グループ_b)
2.回答案:
group_a = group_a.combine_first(group_b)
グループa
3.回答案:
group_a.rename(columns={'key':'D'})
第5章
短い回答の質問
1. グループ集計のプロセスは、通常、分割、適用、およびマージです。分割は、特定のルールに従ってデータ セットをいくつかのグループに分割すること、アプリケーションは、グループ化されたデータに対して一連の操作を実行するプロセス、マージは、これらの操作の結果を統合することです。
2. 一般的に使用されるグループ化方法は主に 4 つあります。リストまたは配列です。リストまたは配列の長さは、グループ化の軸の長さと一致する必要があります。DataFrame の列の名前、ディクショナリまたはシリーズです。オブジェクトと関数です。
プログラムの質問
1. 回答:
Pandas を pd としてインポート
スタッドネットデータ = pd.DataFrame({'学年':['新入生','二年生','三年生',
'大四','大二','大三',
'大一','大三','大四'],
'姓名':['李宏卓','李思真','张振海',
'赵鸿飞','白蓉','马腾飞',
'张晓凡','金紫萱','金烨'],
'年龄':[18,19,20,21,
19,20,18,20,21],
'身高':[175,165,178,175,
160,180,167,170,185],
'体重':[65,60,70,76,55,
70,52,53,73]})
データ = スタッドネットデータ.groupby('グレード')
Freshman = dict([x for x in data])['大一']
プリント(新入生)
2. 答え:
data = data.apply(max)
del データ['グレード']
印刷(データ)
3. 答え:
Junior = dict([x for x in data])['ジュニア']
print(Freshman[‘体重’].apply(‘mean’))
print(Junior[‘体重’].apply(‘mean’))