风险大脑-支付风险识别天池大赛（三）快速建立模型（含调参思路） - 代码天地

风险大脑-支付风险识别天池大赛（三）快速建立模型（含调参思路）

其他 2018-07-05 18:14:50 阅读次数: 0

这一节开始建立模型，在建模之前，我们先梳理一下思路：

思路：

1、首先选出只带标签的数据（有风险和无风险的），进行分析，建立一个 recall rate 风险交易召回率较高的二分类模型。

2、接着在无标签的数据上应用此模型，打上标签，并与之前有标签的数据进行合并，形成最终完整训练样本。

3、将新的训练样本送入模型，得到最终模型。

4、应用测试数据，得到结果。

模型建立流程：

因为id无重复，说明id可能是交易id，而不是账户id，可以不送入模型训练；同时交易时间也可以不送入训练，故利用选择属性算子将其两者过滤。之后将label列的角色设置为标签label，即告诉模型是否有风险的列为你要关心的结果。接着因为随机森林要求输入模型的数据是非空数值类型，故在之前的数据类型转换基础上还要做替换缺失值操作。

在仅利用有标签数据进行预测，随机森林参数maxCategories=50，treeMaxDepth=7，treeNum=30时，结果如下，可以看到效果还不错。

可见当随机森林中树的深度比较小时，效果很差，原因主要是数据中特征太多（接近300个），决策树太浅会导致决策策略过于粗糙，故我们需要提高每颗决策树的深度。

maxCategories=35，treeMaxDepth=6，treeNum=20：

maxCategories=35，treeMaxDepth=14，treeNum=23

maxCategories=35，treeMaxDepth=30，treeNum=23：

可见单个决策树越深，效果越好，为了保证训练的速度，现在保持树深为15，增大随机森林中树的个数，发现效果也有变好。

maxCategories=32，treeMaxDepth=15，seed=7，treeNum=45：

maxCategories=32，treeMaxDepth=30，seed=7，treeNum=100：

但树的个树一旦超过100，再增加树的个数模型效果改善就不大了：

故最终参数调整如下：

maxCategories=32，treeMaxDepth=15，seed=7，treeNum=150：

可见，只用带标签的数据，利用随机森林训练出的模型风险数据召回率并不是很高（接近0.5），因为有些无标签数据中也包含黑样本特征的重要信息。

故接下来用以上训练出的模型对无样本数据打标签。由于篇幅原因，在下一篇博客中介绍。

猜你喜欢

转载自blog.csdn.net/whdxjbw/article/details/80847368

风险大脑-支付风险识别天池大赛（三）快速建立模型（含调参思路）

风险大脑-支付风险识别天池大赛（四）处理无标签数据、建立完整模型

风险大脑-支付风险识别天池大赛（番外篇 · 一）trick思路

风险大脑-支付风险识别天池大赛（二）数据存储及检查

风险大脑-支付风险识别天池大赛（一）数据预处理

风险大脑-支付风险识别天池大赛（五）处理模型输出并提交结果、“榜上有名”

新网银行模型竞赛点评-小微风控算法大赛-早期风险识别

风险识别

《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-企业科研_论文作业

《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

人脸识别的三类安全风险及四类防护思路

天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结

阿里天池大赛[人工智能辅助糖尿病遗传风险预测]赛后总结

外包的风险三：成本的风险

项目风险识别

3.3创业风险识别

11.2 识别风险

风险，风险

财付通支付风险

聚合支付的风控风险！！！

天池精准医疗大赛：人工智能辅助糖尿病遗传风险预测——新手第一次参加数据竞赛的收获与教训

【二等奖方案】系统访问风险识别「QDU」团队解题思路

XGBoost调参思路

PMP - 风险识别之风险登记册

蚂蚁风险大脑如何为“数字蝶变”时代助力？

2023年中国研究生数学建模竞赛E题（二）：问题一a题：血肿扩张风险相关因素探索建模（含模型的分析建立、求解以及源代码）

IT系统风险管理体系的构建思路

用户使用移动支付的风险与防范策略

电商网络支付结算风险与防范

网络支付存在的风险有什么

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)