A análise de dados é um dos campos de importância crescente na sociedade atual. Nos negócios e na ciência, a análise de dados tem uma ampla gama de aplicações. Python é uma linguagem de programação popular amplamente utilizada nas áreas de análise de dados e aprendizado de máquina. O módulo Pandas em Python fornece algumas funções muito úteis que podem nos ajudar na limpeza e análise de dados. Neste artigo, apresentaremos como usar Python e Pandas para análise de dados.
- Instalar Python e Pandas
Primeiro, precisamos instalar o Python e o Pandas. Você pode baixar o instalador do Python no site oficial do Python e seguir as instruções do instalador para instalá-lo. Depois de instalar o Python, podemos usar o pip do gerenciador de pacotes do Python para instalar o Pandas. Digite o seguinte comando na linha de comando:
pip install pandas
Após a conclusão da instalação, podemos começar a usar o Pandas para análise de dados.
- Importar dados
Antes de fazer a análise de dados, precisamos ter alguns dados. Neste artigo, usaremos um conjunto de dados do UCI Machine Learning Repository, que contém algumas informações sobre carros. Você pode baixar o conjunto de dados aqui:
https://archive.ics.uci.edu/ml/datasets/automobile
Após a conclusão do download, salvamos o conjunto de dados em um arquivo chamado "Automobile.csv". Então, em Python, podemos usar a função read_csv do Pandas para carregar os dados:
import pandas as pd
data = pd.read_csv('Automobile.csv')
Isso carregará o conjunto de dados em um Pandas DataFrame chamado "dados".
- limpeza de dados
Antes da análise de dados, geralmente precisamos limpar os dados. Neste artigo, realizaremos as seguintes operações de limpeza de dados:
- remover valores ausentes
- remover linhas duplicadas
- Converter o tipo de dados para o tipo correto
A seguir estão as operações específicas:
# 删除缺失值
data.dropna(inplace=True)
# 删除重复行
data.drop_duplicates(inplace=True)
# 将数据类型转换为正确的类型
data['horsepower'] = data['horsepower'].astype(int)
data['price'] = data['price'].astype(float)
Essas operações removerão todos os valores ausentes e linhas duplicadas e converterão a coluna "horsepower" para um tipo inteiro e a coluna "price" para um tipo float.
- análise de dados
Agora que terminamos de limpar os dados, podemos iniciar a análise de dados. Neste artigo, usaremos algumas funções básicas do Pandas para analisar o conjunto de dados do carro.
Primeiro, podemos usar a função head para visualizar as primeiras linhas do conjunto de dados:
print(data.head())
Isso produzirá as primeiras cinco linhas do conjunto de dados.
Em seguida, podemos usar a função describe para visualizar algumas estatísticas básicas do conjunto de dados:
print(data.describe())
Isso produzirá estatísticas como média, desvio padrão, mínimo, máximo, etc. do conjunto de dados.
Também podemos usar a função groupby para agrupar os dados. Por exemplo, podemos dividir os dados em grupos por fabricante de veículo:
grouped = data.groupby('make')
for name, group in grouped:
print(name)
print(group)
Isso produzirá todas as informações do veículo para cada fabricante.
Finalmente, podemos usar a função plot do Pandas para desenhar um gráfico dos dados. Por exemplo, podemos traçar um histograma de preços de veículos:
import matplotlib.pyplot as plt
data['price'].plot.hist(bins=50)
plt.show()
Isso irá traçar um histograma de preços de veículos e exibi-los.
- Resumir
Neste artigo, abordamos como usar Python e Pandas para análise de dados. Primeiro instalamos Python e Pandas e importamos um conjunto de dados de carro. Em seguida, limpamos os dados, incluindo a remoção de valores ausentes, a remoção de linhas duplicadas e a conversão de tipos de dados. Por fim, usamos algumas funções básicas do Pandas para analisar o conjunto de dados e usamos a função plot para desenhar um gráfico dos dados. Espero que este artigo seja útil para os leitores que estudam análise de dados.