Datenanalyse mit Python und Pandas

Die Datenanalyse ist einer der Bereiche mit zunehmender Bedeutung in der heutigen Gesellschaft. In Wirtschaft und Wissenschaft hat die Datenanalyse vielfältige Einsatzmöglichkeiten. Python ist eine beliebte Programmiersprache, die in den Bereichen Datenanalyse und maschinelles Lernen weit verbreitet ist. Das Pandas-Modul in Python bietet einige sehr praktische Funktionen, die uns bei der Datenbereinigung und -analyse helfen können. In diesem Artikel stellen wir vor, wie man Python und Pandas für die Datenanalyse verwendet.

  1. Installieren Sie Python und Pandas

Zuerst müssen wir Python und Pandas installieren. Sie können das Python-Installationsprogramm von der offiziellen Python-Website herunterladen und dann den Anweisungen des Installationsprogramms folgen, um es zu installieren. Nach der Installation von Python können wir Pandas mit dem Paketmanager pip von Python installieren. Geben Sie in der Befehlszeile den folgenden Befehl ein:



pip install pandas

Nach Abschluss der Installation können wir Pandas für die Datenanalyse verwenden.

  1. Daten importieren

Bevor wir eine Datenanalyse durchführen, benötigen wir einige Daten. In diesem Artikel verwenden wir einen Datensatz aus dem UCI Machine Learning Repository, der einige Informationen über Autos enthält. Den Datensatz können Sie hier herunterladen:

https://archive.ics.uci.edu/ml/datasets/automobile

Sobald der Download abgeschlossen ist, speichern wir den Datensatz in einer Datei namens „Automobile.csv“. Dann können wir in Python die Funktion read_csv von Pandas verwenden, um die Daten zu laden:



import pandas as pd
data = pd.read_csv('Automobile.csv')

Dadurch wird der Datensatz in einen Pandas DataFrame mit dem Namen „data“ geladen.

  1. Datenreinigung

Vor der Datenanalyse müssen wir normalerweise die Daten bereinigen. In diesem Artikel führen wir die folgenden Datenbereinigungsvorgänge durch:

  • fehlende Werte entfernen
  • Entfernen Sie doppelte Zeilen
  • Konvertieren Sie den Datentyp in den richtigen Typ

Im Folgenden sind die spezifischen Vorgänge aufgeführt:



# 删除缺失值
data.dropna(inplace=True)

# 删除重复行
data.drop_duplicates(inplace=True)

# 将数据类型转换为正确的类型
data['horsepower'] = data['horsepower'].astype(int)
data['price'] = data['price'].astype(float)

Diese Vorgänge entfernen alle fehlenden Werte und doppelten Zeilen und wandeln die Spalte „Pferdestärke“ in einen Ganzzahltyp und die Spalte „Preis“ in einen Gleitkommatyp um.

  1. Datenanalyse

Nachdem wir die Bereinigung der Daten abgeschlossen haben, können wir mit der Datenanalyse beginnen. In diesem Artikel werden wir einige grundlegende Funktionen von Pandas verwenden, um den Fahrzeugdatensatz zu analysieren.

Zunächst können wir die Head-Funktion verwenden, um die ersten paar Zeilen des Datensatzes anzuzeigen:



print(data.head())

Dadurch werden die ersten fünf Zeilen des Datensatzes ausgegeben.

Als Nächstes können wir die Funktion „beschreiben“ verwenden, um einige grundlegende Statistiken des Datensatzes anzuzeigen:



print(data.describe())

Dadurch werden Statistiken wie Mittelwert, Standardabweichung, Minimum, Maximum usw. des Datensatzes ausgegeben.

Wir können die Daten auch mit der Groupby-Funktion gruppieren. Beispielsweise können wir die Daten nach Fahrzeughersteller in Gruppen aufteilen:



grouped = data.groupby('make')
for name, group in grouped:
    print(name)
    print(group)

Dadurch werden alle Fahrzeuginformationen für jeden Hersteller ausgegeben.

Schließlich können wir die Plot-Funktion von Pandas verwenden, um ein Diagramm der Daten zu zeichnen. Wir können beispielsweise ein Histogramm der Fahrzeugpreise erstellen:



import matplotlib.pyplot as plt
data['price'].plot.hist(bins=50)
plt.show()

Dadurch wird ein Histogramm der Fahrzeugpreise erstellt und angezeigt.

  1. Zusammenfassen

In diesem Artikel haben wir behandelt, wie man Python und Pandas für die Datenanalyse verwendet. Wir haben zuerst Python und Pandas installiert und einen Autodatensatz importiert. Anschließend haben wir die Daten bereinigt, einschließlich der Entfernung fehlender Werte, der Entfernung doppelter Zeilen und der Konvertierung von Datentypen. Schließlich haben wir einige grundlegende Funktionen von Pandas verwendet, um den Datensatz zu analysieren, und die Plot-Funktion verwendet, um ein Diagramm der Daten zu zeichnen. Ich hoffe, dass dieser Artikel für Leser hilfreich sein wird, die sich mit Datenanalyse befassen.

Ich denke du magst

Origin blog.csdn.net/dhfsh/article/details/131380116
Empfohlen
Rangfolge