Respostas ao pré-processamento de dados do Pandas e operações de agregação e agrupamento de dados, exercícios extracurriculares
Capítulo 4
Pergunta de resposta curta Pergunta de
resposta curta
1. No processo de pré-processamento de dados, um método de processamento apropriado será selecionado de acordo com a situação real dos dados. As operações de pré-processamento comumente usadas incluem limpeza de dados, fusão de dados, remodelagem de dados e conversão de dados. Entre essas operações Eles também contêm diferentes métodos de processamento de dados, como a detecção de valores nulos e ausentes, o processamento de valores repetidos e o processamento de valores discrepantes no processo de limpeza de dados.
2. As operações de mesclagem de dados comumente usadas no Pandas são: a função concat() significa empilhar vários objetos ao longo de um eixo, a função merge() significa mesclar diferentes objetos de acordo com uma ou mais chaves, e o método join() It significa mesclar dados de acordo com o índice ou coluna especificada, e o método combine_first() significa preencher os dados mesclados.
Pergunta
1 do programa. Resposta:
importar pandas como pd
importar numpy como np
grupo_a = pd.DataFrame({'A': [2,3,5,2,3],
'B': ['5',np.nan,'2','3','6'],
'C': [8,7,50,8,2],
'key': [3,4,5,2,5]})
grupo_b = pd.DataFrame({'A': [3,3,3],
'B': [4,4,4],
'C': [5,5,5]})
imprimir(grupo_a)
imprimir(grupo_b)
2.答案:
grupo_a = grupo_a.combine_first(grupo_b)
grupo A
3. Passo:
group_a.rename(columns={'key':'D'})
capítulo 5
Pergunta de resposta curta
1. O processo de agregação de grupo geralmente é dividido, aplicado e mesclado. A divisão consiste em dividir o conjunto de dados em vários grupos de acordo com certas regras; a aplicação é o processo de realizar uma série de operações nos dados agrupados; a fusão consiste em integrar os resultados dessas operações.
2. Existem principalmente quatro métodos de agrupamento comumente usados, a saber: lista ou array, o comprimento da lista ou array precisa ser consistente com o comprimento do eixo de agrupamento, o nome de uma coluna no DataFrame, dicionário ou objeto Series, e função.
Pergunta
1 do programa. Resposta:
importar pandas como pd
studnets_data = pd.DataFrame({'Série':['Calouro','Segundo ano','Júnior',
'大四','大二','大三',
'大一','大三','大四'],
'姓名':['李宏卓','李思真','张振海',
'赵鸿飞','白蓉','马腾飞',
'张晓凡','金紫萱','金烨'],
'年龄':[18,19,20,21,
19,20,18,20,21],
'身高':[175,165,178,175,
160,180,167,170,185],
'体重':[65,60,70,76,55,
70,52,53,73]})
dados = studnets_data.groupby('nota')
Calouro = dict([x para x em dados])['大一']
imprimir (calouro)
2. Resposta:
dados = data.apply(max)
del data['nota']
imprimir (dados)
3. Resposta:
Junior = dict([x para x em dados])['junior']
print(Calouro['peso'].apply('mean'))
print(Júnior['peso'].apply('mean'))