Pandas-Datenverarbeitung und -bereinigung - Aggregation von Konvertierungsgruppierungen für fehlende Daten, doppelte Datentypen

Inhaltsverzeichnis

Vorwort

Umgang mit fehlenden Daten

Doppelte Datenverarbeitung

Datentypkonvertierung

Änderungen an Spaltennamen und Indizes

Gruppierungs- und Aggregationsvorgänge

Zusammenfassen


Vorwort

Dieser Artikel stellt allgemeine Vorgänge für die Datenverarbeitung und -bereinigung in Pandas vor. Es umfasst hauptsächlich die Verarbeitung fehlender Daten, die Verarbeitung doppelter Daten, die Datentypkonvertierung, Änderungen von Spaltennamen und Indizes sowie Gruppierungs- und Aggregationsvorgänge. Für jede Operation wird ein entsprechendes Codebeispiel angegeben. Diese Operationen sind sehr wichtig für die Datenanalyse und -modellierung und können uns dabei helfen, Daten besser zu verstehen und zu verarbeiten.


Umgang mit fehlenden Daten

Bei der eigentlichen Datenverarbeitung trifft man häufig auf fehlende Daten. Zu diesem Zeitpunkt ist eine Verarbeitung wie das Ausfüllen oder Löschen von Daten erforderlich. Pandas stellt fillna()- und dropna()-Funktionen bereit, um fehlende Daten zu verarbeiten.

$import pandas as pd
import numpy as np

# 创建含有缺失数据的DataFrame
df = pd.DataFrame({'A': [1, 2, np.nan, 4],
                   'B': [5, np.nan, 7, 8],
                   'C': [9, 10, 11, np.nan]})

# 使用fillna()函数填充缺失数据
df.fillna(0)

# 使用dropna()函数删除缺失数据
df.dropna()$

Doppelte Datenverarbeitung

Das Vorhandensein doppelter Daten kann die Analyseergebnisse beeinflussen, und eine doppelte Datenverarbeitung ist erforderlich. Pandas stellt die Funktion drop_duplicates() bereit, um doppelte Daten zu entfernen.

import pandas as pd

# 创建含有重复数据的DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 3],
                   'B': [4, 5, 6, 6]})

# 使用drop_duplicates()函数去除重复数据
df.drop_duplicates()

Datentypkonvertierung

Bei der Datenverarbeitung müssen Datentypen konvertiert werden. Pandas bietet die Funktion astype() zum Konvertieren von Datentypen.

import pandas as pd

# 创建含有不同数据类型的DataFrame
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': ['4', '5', '6']})

# 使用astype()函数进行数据类型转换
df['B'] = df['B'].astype(int)

Änderungen an Spaltennamen und Indizes

Während der Datenverarbeitung müssen Änderungen an Spaltennamen und Indizes vorgenommen werden. Pandas bietet die Funktion rename() zum Ändern von Spaltennamen und Indizes.

import pandas as pd

# 创建含有不同列名和索引的DataFrame
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]},
                  index=['a', 'b', 'c'])

# 使用rename()函数进行列名和索引的更改
df = df.rename(columns={'A': 'new_A'}, index={'a': 'new_a'})

Gruppierungs- und Aggregationsvorgänge

Bei der Datenverarbeitung müssen Daten gruppiert und aggregiert werden. Pandas bietet groupby()- und agg()-Funktionen für Gruppierungs- und Aggregationsvorgänge.

import pandas as pd

# 创建含有不同数据的DataFrame
df = pd.DataFrame({'A': ['a', 'a', 'b', 'b'],
                   'B': ['x', 'y', 'x', 'y'],
                   'C': [1, 2, 3, 4]})

# 使用groupby()函数进行分组操作
grouped = df.groupby(['A', 'B'])

# 使用agg()函数进行聚合操作
grouped.agg({'C': 'sum'})


Zusammenfassen

Dieser Artikel beschreibt allgemeine Vorgänge für die Datenverarbeitung und -bereinigung in Pandas. Dazu gehören der Umgang mit fehlenden Daten, der Umgang mit doppelten Daten, die Datentypkonvertierung, Änderungen an Spaltennamen und Indizes sowie Gruppierungs- und Aggregationsvorgänge. Für jede Operation wird ein entsprechendes Codebeispiel angegeben.

Supongo que te gusta

Origin blog.csdn.net/alike_u/article/details/129836392
Recomendado
Clasificación