传统机器学习&数据挖掘比赛代码框架 - 代码天地

传统机器学习&数据挖掘比赛代码框架

其他 2018-11-01 11:41:18 阅读次数: 0

版权声明：（欢迎转载，转载请注明出处。技术交流：[email protected]） https://blog.csdn.net/Yasin0/article/details/82810155

传统数据挖掘比赛中代码框架如下：
1.导入库
2.读取数据文件
3.定义特征构建函数（希望构建新的特征提升分数，只需要新增框架中的第 3 和第 4 部分。）
4.调用函数，构建特征
5.拆分数据集的特征与标签
6.模型的交叉验证
7.模型的训练与预测
8.结果文件的写出

# coding:utf-8

# 1. 导入库
import numpy as np
import pandas as pd
...

# 2. 读取数据文件
train = pd.read_csv('../data/input/train.csv')
test = pd.read_csv('../data/input/evaluation_public.csv')
...

# 3. 定义特征构建函数
def get_entbase_feature(df):
	...
    return entbase_feat
def get_alter_feature(df):
	...
    return alter_feat
...

# 4. 调用函数，构建特征
entbase_feat = get_entbase_feature(entbase)
alter_feat = get_alter_feature(alter)
...

# 5. 拆分数据集的特征与标签
dataset = pd.merge(entbase_feat, alter_feat, on='EID', how='left')
...
trainset = pd.merge(train, dataset, on='EID', how='left')
testset = pd.merge(test, dataset, on='EID', how='left')
train_feature = trainset.drop(['TARGET', 'ENDDATE'], axis=1)
train_label = trainset.TARGET.values
test_feature = testset
test_index = testset.EID.values

# 6. 模型的交叉验证
...
iterations, best_score = xgb_cv(train_feature, train_label, params, config['folds'], config['rounds'])
...

# 7. 模型的训练与预测
...
model, pred = xgb_predict(train_feature, train_label, test_feature, iterations, params)
...

# 8. 结果文件的写出
res = store_result(test_index, pred, 0.18, '1207-xgb-%f(r%d)' % (best_score, iterations))

其中步骤3,4,5是做特征工程的整体框架，对于不同的数据表格，我们单独作为一个函数获取特征，如果需要跨不同表格进行交叉特征的话，可以在后面进行处理，这样做的好处是让我们可以在代码中区别不同特征的来源，方便我们对特征进行增添删减。

猜你喜欢

转载自blog.csdn.net/Yasin0/article/details/82810155

传统机器学习&数据挖掘比赛代码框架

数据挖掘、机器学习、大数据比赛罗列

数据挖掘比赛通用框架

.NET数据挖掘与机器学习开源框架

机器学习数据挖掘

数据挖掘与机器学习

【数据挖掘、机器学习】

《数据挖掘》学习框架

机器学习、数据挖掘相关框架简单总结

数据挖掘比赛模板

数据挖掘和机器学习

机器学习与数据挖掘简介

Python 数据挖掘与机器学习

Python数据挖掘与机器学习

人工智能机器深度学习与大数据技术在足球比赛预测推荐分析上的深度挖掘和应用

数据挖掘两大传统算法介绍及伪代码

数据挖掘（一）如何学习“机器学习”

数据挖掘、机器学习、深度学习的区别

入门大数据---机器学习与数据挖掘

机器学习与数据挖掘学习笔记（5）关联挖掘

机器学习中的聚类算法演变及学习笔记数据挖掘比赛/项目全流程介绍智能推荐算法演变及学习笔记

京东金融数据挖掘比赛

数据挖掘比赛笔记总结

Kaggle金牌得主的Python数据挖掘框架，机器学习基本流程都讲清楚了

怎样将Embedding融入传统机器学习框架？（转载学习）

数据科学比赛公开代码学习链接

机器学习&数据挖掘笔记概述（转载）

机器学习和数据挖掘的联系与区别

数据挖掘（三）机器是如何学习的

机器学习/数据挖掘知识整理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)