[Gire] Procesamiento de datos de Pandas (1) -¡Algunas funciones simples de dominar!

 

Para Pandas, todos los que han estado expuestos al procesamiento de datos de Python deben estar muy familiarizados con él. Es un paquete indispensable para el procesamiento de datos. La característica más importante es eficiente. ¡Este artículo presenta algunos usos básicos de Pandas a través de estudios de casos!

1. Leer los datos

La mayoría de los datos se pueden leer con la función read_csv (). Hay un parámetro sep en la función, que representa el separador de los datos. El valor predeterminado es "," (porque la mayoría de los datos del archivo csv están separados por " )

users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",
                   sep = '|')# Read data;
users

Datos brutos:

 

 

Datos después de leer:

 

 

Además de read_csv, también hay una función read_table de uso común que también puede realizar operaciones de lectura, y su uso es similar a read_csv

2. Cambie el valor del índice para mostrar solo las primeras filas de datos.

La función set_index () se usa para cambiar el valor del índice. Tenga en cuenta que debe agregar un parámetro replace = True para indicar reemplazo; use la función head (n) para indicar que solo se muestran las primeras n filas de datos

users.set_index('user_id',inplace = True)
users.head(25)

 

 

tail (n) solo muestra las últimas filas de datos;

3. Ver la información básica de las filas y columnas de los datos

1. Shape devuelve el número de filas y columnas de los datos, devueltos en forma de tupla;

users.shape
​
# (943, 4)

2. Columnas devuelve el nombre de la columna de datos;

users.columns
​
# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')

3. El índice devuelve el nombre de la fila;

users.index
​
Int64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,
            ...
            934, 935, 936, 937, 938, 939, 940, 941, 942, 943],
           dtype='int64', name='user_id', length=943)

4. dtypes devuelve el tipo de datos de cada columna;

users.dtypes
​
​
# age            int64
gender        object
occupation    object
zip_code      object
dtype: object

4. Seleccione solo una o más columnas de datos

Pandas ofrece una variedad de formas para elegir: Nota: usuarios se refiere al formato DataFrame que puede manejar Pandas;

1, nombre de la columna de usuarios;

users.occupation

2. Usuarios [['Nombre de columna']];

users[['occupation']]

3. Users.loc [:, ['Nombre de columna']];

users.loc[:,['occupation']]

 

 

Al seleccionar varias columnas de datos al mismo tiempo

1, usuarios [['nombre de columna 1', 'nombre de columna 2']];

users[['occupation','age']]

2, users.loc [:, ['nombre de columna 1', 'nombre de columna 2']];

users.loc[:,['occupation','age']]

 

 

5. Elimine las estadísticas duplicadas de los datos de la columna.

1. Column name.nunique () Ver el número de muestras únicas en una columna de datos;

users.occupation.nunique()
​
​
# 21

También se puede lograr de esta manera

列 名 .value_counts (). Count ()

users.occupation.value_counts().count()
​
​
# 21

Si desea verificar cuántas veces ha aparecido cada muestra única en la lista de datos en base a 1, puede usar la siguiente declaración

usuarios. 列 名 .value_counts ()

users.occupation.value_counts().head()
​
​
# student          196
other            105
educator          95
administrator     79
engineer          67
Name: occupation, dtype: int64

6.Haga una estadística simple en la columna numérica de la lista de datos.

users.describe () se puede implementar, las estadísticas predeterminadas son columnas numéricas (los datos en las columnas se muestran todos en valores numéricos)

users.describe()

 

 

Por supuesto, también puede contar todas las columnas, agregar un parámetro include = 'all';

users.describe(include = 'all')

 

 

users.Column name.describe () también puede realizar estadísticas en columnas especificadas:

users.occupation.describe()
​
#count         943
unique         21
top       student
freq          196
Name: occupation, dtype: object

7. Agrupar y agrupar los datos

La función groupby realiza una operación de agrupamiento en una columna y devuelve un objeto GroupBy; similar al método en 5, la diferencia es que  groupby usa la  columna agrupada como referencia para ver las estadísticas de datos de otras columnas

c =users.groupby("occupation")
c
​
# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>

GroupBy.head (n) Ver las primeras n filas de datos

c.head(5)

GroupBy.cout () realiza estadísticas de datos para cada muestra correspondiente a otras columnas

c.count()

GroupBy.size () cuenta el número de ocurrencias de cada muestra en la columna

c.size()

Hay otras funciones para las operaciones de licenciamiento,

 

 

Para obtener más información, visite el sitio web oficial: https://pandas.pydata.org/docs/reference/groupby.html

8. Ordene los datos según una columna determinada.

Utilice la función data.sort_values ​​(), el valor predeterminado es de pequeño a grande, puede establecer ascennding = False para establecer de grande a pequeño;

users.sort_values(["age"],ascending = False)

También puede ordenar haciendo referencia a varias columnas:

users.sort_values(["age","zip_code"],ascending = False)

 

 

9. Cree una nueva columna

Es relativamente sencillo agregar una nueva columna, crear una serie (el número de filas debe ser el mismo que el número de filas en los datos de la lista original) y asignar valores a los datos de origen.

data ['nombre de columna'] = serie recién creada; a continuación, usaré para normalizar los datos en edad y almacenar los datos en la nueva columna age_normalize

 

 

10. Elimina la columna especificada.

Utilice la función drop () para eliminar la columna especificada en los datos de origen

users.drop(['age'],axis = 1)

El eje aquí representa la fila o columna que se eliminará, el valor predeterminado es 0, 0 representa la fila, 1 representa la columna; también puede usar el siguiente comando directamente:

users.drop(columns =['age'])

 

Supongo que te gusta

Origin blog.csdn.net/weixin_52071682/article/details/112420032
Recomendado
Clasificación