Autogluon-Integrationsalgorithmus

Da ich das Programm auf Colab ausführe,

Ich werde nicht im Detail zeigen, wie dieses Autogluon-Paket installiert wird.

Im Internet gibt es Unterlagen zum Unterrichten

Die Stärke von Autogluon liegt in seiner eigenen Merkmalsextraktion

Sparen Sie viel Zeit für die manuelle Vorverarbeitung

Ich habe persönlich die Normalisierung des int-Typs und der Dummy-Variablen des str-Typs nach der Verarbeitung getestet

Der Effekt des Laufens ist der gleiche wie der unbehandelte

Dieses Tutorial ist nur für Klassifizierungsaufgaben gedacht. Andere Typen müssen in der offiziellen Website-Dokumentation nachgelesen werden

import pandas as pd
from autogluon.tabular import TabularDataset,TabularPredictor   #把这个包导入进来

 #以kaggle为例子,kaggle的数据一般会给出这两个train,test.csv
train_data = TabularDataset('train.csv') 
test_data = TabularDataset('test.csv')
#如上,这其实就是个pandas的DataFrame

#简单定义一下
#这里按具体数据集来,这里的label指的是要预测的标签,即是y
#在探索数据阶段,找出一些无效的数据,drop掉的数据,也先用列表存起来,
id,label = 'user_id', 'Label'  

#这里就开始run了,antogluon算法用多个分类区训练,输出每个模型的分数
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))

#这里是预测test的数据,会默认使用最高分的模型去预测
#最后输出‘id’,'label'两列,生成csv文件。当然可按个人需求改输出
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({
    
    id:test_data[id],label:preds})
submission.to_csv('submission.csv',index=False)

Um bessere Ergebnisse zu erzielen

Die Quelldaten können ordnungsgemäß vorverarbeitet werden.

Wenn beispielsweise einige numerische Werte relativ groß sind, können Sie sie protokollieren

import numpy as np
large_val_col = ['A','C','S','G','K']
for i in large_val_col:
train[c] = np.log(train[c] + 1)

Schreiben Sie einfach zuerst so viel und aktualisieren Sie es weiter, wenn Sie neues Wissen haben

Guess you like

Origin blog.csdn.net/weixin_44820355/article/details/124710545