Algorithme d'intégration d'autogluon

Depuis que j'exécute le programme sur colab,

Je ne vais pas montrer comment installer ce package Autogluon en détail.

Il y a des documents sur Internet pour enseigner

La puissance d'Autogluon réside dans sa propre extraction de caractéristiques

Économisez beaucoup de temps pour le prétraitement manuel

J'ai personnellement testé la normalisation du type int et la variable muette de type str après traitement

L'effet de la course est le même que celui de la non traitée

Ce tutoriel est uniquement pour les tâches de classification, les autres types doivent se rendre sur la documentation du site officiel pour bien regarder

import pandas as pd
from autogluon.tabular import TabularDataset,TabularPredictor   #把这个包导入进来

 #以kaggle为例子,kaggle的数据一般会给出这两个train,test.csv
train_data = TabularDataset('train.csv') 
test_data = TabularDataset('test.csv')
#如上,这其实就是个pandas的DataFrame

#简单定义一下
#这里按具体数据集来,这里的label指的是要预测的标签,即是y
#在探索数据阶段,找出一些无效的数据,drop掉的数据,也先用列表存起来,
id,label = 'user_id', 'Label'  

#这里就开始run了,antogluon算法用多个分类区训练,输出每个模型的分数
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))

#这里是预测test的数据,会默认使用最高分的模型去预测
#最后输出‘id’,'label'两列,生成csv文件。当然可按个人需求改输出
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({
    
    id:test_data[id],label:preds})
submission.to_csv('submission.csv',index=False)

Pour obtenir de meilleurs résultats

Il peut être correctement prétraité sur les données source.

Par exemple, si certaines valeurs numériques sont relativement importantes, vous pouvez les enregistrer

import numpy as np
large_val_col = ['A','C','S','G','K']
for i in large_val_col:
train[c] = np.log(train[c] + 1)

Écrivez simplement autant d'abord et continuez à mettre à jour lorsque vous avez de nouvelles connaissances

Je suppose que tu aimes

Origine blog.csdn.net/weixin_44820355/article/details/124710545
conseillé
Classement