특징 배열에 기반한 특징 중요도 계산 및 비주얼 파이썬 구현

특징 배열에 기반한 특징 중요도 계산 및 비주얼 파이썬 구현

기계 학습 분야에서 기능 중요도는 매우 중요한 작업입니다. 기능 중요도는 종종 모델의 예측에 가장 큰 영향을 미치는 모델의 기능을 식별하는 데 사용됩니다. 특성 중요도는 특성 선택 및 모델 최적화에 널리 사용되며 특성 중요도를 계산하는 방법에는 여러 가지가 있으며 그 중 하나가 특성 순열 방법입니다.

이 기사에서는 Python을 사용하여 기능 배열을 기반으로 기능 중요도 계산 및 시각화를 구현하는 방법을 소개합니다. Python 데이터 분석 라이브러리(pandas, numpy 및 scikit-learn의 랜덤 포레스트 모델)를 사용하여 프로세스를 시연합니다.

먼저 필요한 라이브러리를 가져와야 합니다.

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.inspection import permutation_importance
import matplotlib.pyplot as plt

그런 다음 필요한 데이터를 로드하고 데이터를 사전 처리할 수 있습니다(예: 누락된 값 채우기, 이상값 처리 등). 여기서는 반복하지 않습니다.

그런 다음 데이터를 교육 및 테스트 세트로 나눕니다.

train = data.sample(frac=0.8, random_state=42) # 80% of data as training set
test = data.drop(train.index)

데이터를 훈련 세트와 테스트 세트로 나누는 목적은 특성 중요도 계산의 정확도를 검증하기 위함입니다.

다음으로 랜덤 포레스트 모델을 사용하여 기능 중요도를 계산할 수 있습니다.

X_train = train.drop(columns=['y'])
y_train = train['y']

rf 

Supongo que te gusta

Origin blog.csdn.net/update7/article/details/131356345
Recomendado
Clasificación