Análise de dados usando Python e Pandas

A análise de dados é um dos campos de importância crescente na sociedade atual. Nos negócios e na ciência, a análise de dados tem uma ampla gama de aplicações. Python é uma linguagem de programação popular amplamente utilizada nas áreas de análise de dados e aprendizado de máquina. O módulo Pandas em Python fornece algumas funções muito úteis que podem nos ajudar na limpeza e análise de dados. Neste artigo, apresentaremos como usar Python e Pandas para análise de dados.

  1. Instalar Python e Pandas

Primeiro, precisamos instalar o Python e o Pandas. Você pode baixar o instalador do Python no site oficial do Python e seguir as instruções do instalador para instalá-lo. Depois de instalar o Python, podemos usar o pip do gerenciador de pacotes do Python para instalar o Pandas. Digite o seguinte comando na linha de comando:



pip install pandas

Após a conclusão da instalação, podemos começar a usar o Pandas para análise de dados.

  1. Importar dados

Antes de fazer a análise de dados, precisamos ter alguns dados. Neste artigo, usaremos um conjunto de dados do UCI Machine Learning Repository, que contém algumas informações sobre carros. Você pode baixar o conjunto de dados aqui:

https://archive.ics.uci.edu/ml/datasets/automobile

Após a conclusão do download, salvamos o conjunto de dados em um arquivo chamado "Automobile.csv". Então, em Python, podemos usar a função read_csv do Pandas para carregar os dados:



import pandas as pd
data = pd.read_csv('Automobile.csv')

Isso carregará o conjunto de dados em um Pandas DataFrame chamado "dados".

  1. limpeza de dados

Antes da análise de dados, geralmente precisamos limpar os dados. Neste artigo, realizaremos as seguintes operações de limpeza de dados:

  • remover valores ausentes
  • remover linhas duplicadas
  • Converter o tipo de dados para o tipo correto

A seguir estão as operações específicas:



# 删除缺失值
data.dropna(inplace=True)

# 删除重复行
data.drop_duplicates(inplace=True)

# 将数据类型转换为正确的类型
data['horsepower'] = data['horsepower'].astype(int)
data['price'] = data['price'].astype(float)

Essas operações removerão todos os valores ausentes e linhas duplicadas e converterão a coluna "horsepower" para um tipo inteiro e a coluna "price" para um tipo float.

  1. análise de dados

Agora que terminamos de limpar os dados, podemos iniciar a análise de dados. Neste artigo, usaremos algumas funções básicas do Pandas para analisar o conjunto de dados do carro.

Primeiro, podemos usar a função head para visualizar as primeiras linhas do conjunto de dados:



print(data.head())

Isso produzirá as primeiras cinco linhas do conjunto de dados.

Em seguida, podemos usar a função describe para visualizar algumas estatísticas básicas do conjunto de dados:



print(data.describe())

Isso produzirá estatísticas como média, desvio padrão, mínimo, máximo, etc. do conjunto de dados.

Também podemos usar a função groupby para agrupar os dados. Por exemplo, podemos dividir os dados em grupos por fabricante de veículo:



grouped = data.groupby('make')
for name, group in grouped:
    print(name)
    print(group)

Isso produzirá todas as informações do veículo para cada fabricante.

Finalmente, podemos usar a função plot do Pandas para desenhar um gráfico dos dados. Por exemplo, podemos traçar um histograma de preços de veículos:



import matplotlib.pyplot as plt
data['price'].plot.hist(bins=50)
plt.show()

Isso irá traçar um histograma de preços de veículos e exibi-los.

  1. Resumir

Neste artigo, abordamos como usar Python e Pandas para análise de dados. Primeiro instalamos Python e Pandas e importamos um conjunto de dados de carro. Em seguida, limpamos os dados, incluindo a remoção de valores ausentes, a remoção de linhas duplicadas e a conversão de tipos de dados. Por fim, usamos algumas funções básicas do Pandas para analisar o conjunto de dados e usamos a função plot para desenhar um gráfico dos dados. Espero que este artigo seja útil para os leitores que estudam análise de dados.

Acho que você gosta

Origin blog.csdn.net/dhfsh/article/details/131380116
Recomendado
Clasificación