Explicación detallada de la biblioteca Polars en Python

biblioteca polares en python

que son los polares

Polars es una biblioteca de Python para la manipulación de datos que proporciona una API similar a Pandas, pero mucho más rápida y eficiente en memoria.

Polars puede manejar conjuntos de datos muy grandes y operar con ellos rápidamente en tiempo de ejecución. Tiene una API similar a Pandas para operaciones comunes como filtrado, agregación y transformación. Además, Polars también proporciona una API más intuitiva y fácil de usar, que le permite usar fácilmente algunas técnicas complejas de procesamiento de datos.

Funciones comunes

1.leer_csv()
La función read_csv() se usa para leer datos de un archivo CSV y devuelve un objeto DataFrame. Esta función puede aceptar varios parámetros, como la ruta del archivo, el delimitador de columnas, el delimitador de filas, etc.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')

2.cabeza()
La función head() se usa para devolver las primeras n filas de datos en el DataFrame, y el valor predeterminado es 5 filas.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
print(df.head())

3.filtrar()
La función filter() se usa para filtrar datos de fila en DataFrame según criterios específicos.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)

4.seleccionar()
La función select() se usa para seleccionar datos de columna en DataFrame.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)

5.agrupar por()
La función groupby() se usa para agrupar los datos en el DataFrame y agregar los datos agrupados.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({
    
    'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)

.agg() es una función en la biblioteca Polars para realizar operaciones agregadas en DataFrames. Puede aceptar un argumento de diccionario que especifique las columnas que se agregarán y la función de agregación que se usará.

  1. unirse()
    La función join() se usa para unir los datos en dos DataFrames de acuerdo con la columna especificada.

Código de muestra:

import polars as pl

df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)

7.clasificar()
La función sort() se usa para ordenar los datos en el DataFrame según la columna especificada.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)

8.llenar_null()
La función fill_null() se usa para llenar los valores nulos en el DataFrame con el valor especificado.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)

9.describir()
La función describe() se usa para generar estadísticas descriptivas para columnas numéricas en DataFrame, incluido el recuento, la media, la desviación estándar, el mínimo, el máximo, etc.

Código de muestra:

import polars as pl

df = pl.read_csv('data.csv')
description = df.describe()
print(description)

10marco de datos pl.
pl.DataFrame es la clase de la biblioteca Polars utilizada para crear objetos DataFrame. DataFrame es una estructura de datos tabular bidimensional en la que cada columna puede ser un tipo de datos diferente, similar a una tabla de Excel o una tabla de datos en SQL.

Código de muestra:

import polars as pl

data = {
    
    
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
}

df = pl.DataFrame(data)
print(df)

En el código de muestra anterior, primero definimos un diccionario de datos, que contiene tres pares clave-valor, que representan los datos de las tres columnas de nombre, edad y sexo, respectivamente. A continuación, usamos la clase pl.DataFrame para crear un objeto DataFrame df y pasar los datos como un parámetro del constructor. Finalmente, imprimimos el valor del objeto df.
11.columna
.col es un método en la biblioteca Polars para seleccionar una columna de datos en un DataFrame, que devuelve un objeto Serie. En Polars, un objeto DataFrame consta de múltiples objetos Series, cada objeto Series representa una columna de datos.
Código de muestra:

import polars as pl

df = pl.DataFrame({
    
    
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
})

age_col = df.col('age')
print(age_col)

En el código de muestra anterior, primero creamos un objeto DataFrame, luego usamos el método col() para seleccionar los datos de la columna de edad y lo asignamos a la variable age_col. Finalmente, imprimimos el valor de la variable age_col, que es un objeto Series que representa los datos de la columna age.

El método col() es una forma conveniente de seleccionar una columna de datos en un DataFrame y operar sobre ella, como calcular el promedio, el máximo, etc. de esa columna. Al mismo tiempo, también puede usar el método select() para seleccionar varias columnas para varias columnas de datos y luego operar en varias columnas.

Supongo que te gusta

Origin blog.csdn.net/m0_68678046/article/details/130301656
Recomendado
Clasificación