Python의 Polars 라이브러리에 대한 자세한 설명

Python의 Polars 라이브러리

북극이란 무엇인가

Polars는 Pandas와 유사한 API를 제공하지만 훨씬 빠르고 메모리 효율적인 데이터 조작용 Python 라이브러리입니다.

Polars는 매우 큰 데이터 세트를 처리하고 런타임에 빠르게 작동할 수 있습니다. 필터링, 집계 및 변환과 같은 일반적인 작업을 위한 Pandas와 유사한 API가 있습니다. 또한 Polars는 보다 직관적이고 사용하기 쉬운 API를 제공하므로 일부 복잡한 데이터 처리 기술을 쉽게 사용할 수 있습니다.

공통 기능

1.읽기_csv()
read_csv() 함수는 CSV 파일에서 데이터를 읽고 DataFrame 객체를 반환하는 데 사용됩니다. 이 함수는 파일 경로, 열 구분 기호, 행 구분 기호 등과 같은 다양한 매개변수를 허용할 수 있습니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')

2.머리()
head() 함수는 DataFrame에서 데이터의 처음 n행을 반환하는 데 사용되며 기본값은 5행입니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
print(df.head())

삼.필터()
filter() 함수는 지정된 기준에 따라 DataFrame의 행 데이터를 필터링하는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
filtered_df = df.filter(pl.col('age') > 18)#找age大于18的数据
print(filtered_df)

4.선택하다()
select() 함수는 DataFrame에서 열 데이터를 선택하는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
selected_df = df.select(['name', 'age'])#返回列名为name和age的列数据
print(selected_df)

5.그룹비()
groupby() 함수는 DataFrame의 데이터를 그룹화하고 그룹화된 데이터를 집계하는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
grouped_df = df.groupby('gender').agg({
    
    'age': ['min', 'max', 'mean'], 'salary': 'sum'})
print(grouped_df)

.agg() 는 DataFrames에서 집계 작업을 수행하기 위한 Polars 라이브러리의 함수입니다. 집계할 열과 사용할 집계 함수를 지정하는 사전 인수를 허용할 수 있습니다.

  1. 가입하다()
    join() 함수는 지정된 열에 따라 두 DataFrame의 데이터를 조인하는 데 사용됩니다.

샘플 코드:

import polars as pl

df1 = pl.read_csv('data1.csv')
df2 = pl.read_csv('data2.csv')
joined_df = df1.join(df2, on='id')
print(joined_df)

7.종류()
sort() 함수는 지정된 열에 따라 DataFrame의 데이터를 정렬하는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
sorted_df = df.sort(by='age')
print(sorted_df)

8.채우기_널()
fill_null() 함수는 DataFrame의 null 값을 지정된 값으로 채우는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
filled_df = df.fill_null(0)#用0填充空值
print(filled_df)

9.설명하다()
describe() 함수는 개수, 평균, 표준 편차, 최소값, 최대값 등을 포함하여 DataFrame의 숫자 열에 대한 설명 통계를 생성하는 데 사용됩니다.

샘플 코드:

import polars as pl

df = pl.read_csv('data.csv')
description = df.describe()
print(description)

10.pl.DataFrame
pl.DataFrame은 DataFrame 개체를 만드는 데 사용되는 Polars 라이브러리의 클래스입니다. DataFrame은 Excel 테이블 또는 SQL의 데이터 테이블과 유사하게 각 열이 다른 데이터 유형일 수 있는 2차원 테이블 형식 데이터 구조입니다.

샘플 코드:

import polars as pl

data = {
    
    
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
}

df = pl.DataFrame(data)
print(df)

위의 샘플 코드에서 먼저 이름, 연령 및 성별의 세 열 데이터를 나타내는 세 개의 키-값 쌍을 포함하는 사전 데이터를 정의합니다. 다음으로 pl.DataFrame 클래스를 사용하여 DataFrame 객체 df를 생성하고 데이터를 생성자의 매개 변수로 전달합니다. 마지막으로 df 객체의 값을 출력합니다.
11..안부
.col은 Series 개체를 반환하는 DataFrame에서 데이터 열을 선택하기 위한 Polars 라이브러리의 메서드입니다. Polars에서 DataFrame 개체는 여러 Series 개체로 구성되며 각 Series 개체는 데이터 열을 나타냅니다.
샘플 코드:

import polars as pl

df = pl.DataFrame({
    
    
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [20, 30, 25],
    'gender': ['F', 'M', 'M']
})

age_col = df.col('age')
print(age_col)

위의 샘플 코드에서는 먼저 DataFrame 개체를 만든 다음 col() 메서드를 사용하여 age 열 데이터를 선택하고 age_col 변수에 할당했습니다. 마지막으로 age 열 데이터를 나타내는 Series 개체인 age_col 변수의 값을 출력합니다.

col() 메서드는 DataFrame에서 데이터 열을 선택하고 해당 열의 평균, 최대값 등을 계산하는 것과 같은 작업을 수행하는 편리한 방법입니다. 동시에 select() 메서드를 사용하여 여러 데이터 열에 대해 여러 열을 선택한 다음 여러 열에서 작업할 수도 있습니다.

추천

출처blog.csdn.net/m0_68678046/article/details/130301656