机器学习之交易欺诈检测

其他 2020-01-25 10:28:47 阅读次数: 0

电商领域，交易欺诈的例子已多如牛毛，每年有非常多人受到欺诈带来的经济损害。作为电商企业，如何利用沉淀的订单数据，与机器学习相结合，提前检测交易是否有欺诈行为，从事前或事中就及时阻断交易动作，从而保障用户的使用安全，大幅度减少欺诈带来的损害是一直追求的目标。本文以简单数据特征为切入点，其目的是希望大家可直观了解核心思想，方便读者使用到自身的领域中，起到抛砖引玉效果（比如：电信、电购等）。业界所采用的方法会比文中所讲内容复杂的多。

一、特征元素选择

针对交易欺诈，本文从7个特征来表征，即4个原始数据特征及3个付款方式的编码特征。

4个原始数据特征包括：1.从第一笔交易时间与注册账号的时间差；2.购买次数；3.购买时间；4.付款方式添加时间与交易的时间差。

3个付款方式特征：1.信用卡（creditcard）；2.支付宝（alipay）；3.花呗（huabei）。

特征选择需要花费大量时间与精力，我们可以通过建设训练与评分流程，可利用逻辑回归、SVM、决策树确定相对特征的重要性。冗余的特征会降低模型的质量，高度相关特征可能会导致米线决策的不稳定，如果特征数据量大于数据点会出现过渡拟合问题，如果数据特征量太少会出现欠拟合问题。

二、功能实现

基础环境

本文基于python实现，所以读者需要具备python环境。

sklearn及pandas提供的类。

交易数据语料库，具体数据语料如下：

交易语料库

读取信息

通过分析结构化数据的工具集pandas获取csv文件内容

读取csv文件

具体效果可见交易语料库图。

变量处理

因为支付方式是变量，所以我们需要将其转换为数值，可通过调用pands.get_dummies()，将分类遍历转换为数值。

效果如下图：

变量转数值效果图

可见我们已经将信用卡、支付宝、花呗三个变量转换为数值添加到表中。

数据预处理

交易的基础数据处理完毕后，可对数据进行预处理操作，train_test_split函数用于将矩阵随机划分训练子集和测试子集，并返回划分好的训练集和测试集及标签。详情见下图：

数据预处理

上图中1.调用了df.drop方法,将lable列删除，获得特征集。2.获取lable标签即样本标签。3.X_train和X_text,比例是0.67与0.33，因为我们引入test_size为0.33。其大体含义为67%用于训练，33%用于测试。4.随机数种子为17。

调用参数：

train_data（第一个参数）：所要划分的样本特征集;

train_target（第二个参数）：所要划分的样本标签;

test_size（第三个参数）：样本占比，测试集样本数目与原始数目之比;

random_state（第四个参数）：是随机数的种子。

返回内容：

X_train:划分出的训练集数据；

X_test:划分出对的测试集数据；

y_train:划分出的训练集标签；

y_test:划分出的测试集标签

开始训练

利用X_train与y_train对模型参数进行拟合。最后通过predict方法获取返回预测结果（标签值）。

开始训练

输出结果

本文输出两块内容，一个是预测结果信息，一个是混淆矩阵

输出结果

上图输出结果，可理解为1笔被漏报，没有误报。我们将混淆矩阵加工后，会更清晰，见下图：

混淆加工

三、总结

本文通过简单的例子讲述了如何利用特征结合学习算法实现交易欺诈的异常检测，文章中所举例子非常简单，旨在通过简单例子了解实现原理和思想，为我们后续实际业务过程中所要解决的问题提前铺垫。在现实环境中，远比该举例复杂的多。

MR王峰

发布了35 篇原创文章 · 获赞 3 · 访问量 2908

私信关注

猜你喜欢

转载自blog.csdn.net/a59a59/article/details/103537498

机器学习之交易欺诈检测

机器学习——项目实战（交易数据异常检测——信用卡欺诈检测）

Apache Flink 欺诈交易检测

信用卡欺诈检测案例实践（机器学习）

信用卡欺诈检测机器学习案例（LR、RF）

机器学习实战：信用卡欺诈行为检测

机器学习项目实战----信用卡欺诈检测(一)

机器学习项目实战----信用卡欺诈检测(二)

机器学习项目实战之信用卡欺诈检测

机器学习-信用卡欺诈检测实战

机器学习实战：信用卡欺诈检测

信用卡欺诈检测：基于机器学习的方法

机器学习之逻辑回归实战---信用卡欺诈检测

机器学习——项目实战（使用逻辑回归进行信用欺诈检测任务）

机器学习案例实战之信用卡欺诈检测——收获的技术

机器学习实战分享：用 Python 进行信用卡欺诈检测

机器学习实战 | Python 信用卡欺诈检测其实特简单

【机哥】基于机器学习的信用卡欺诈检测器

Python机器学习之交叉验证

机器学习笔记之交叉验证

机器学习之交叉验证(Cross Validation)

机器学习项目实战交易数据异常检测

唐宇迪机器学习实战——交易数据异常检测

机器学习 — 信用卡欺诈预测

【Python】【机器学习】企业欺诈识别

机器学习小实战（一）信用卡欺诈检测-逻辑回归的二分类

【机器学习案例实战】信用卡欺诈检测(推荐入门看下，已更新至最新库)

机器学习系列之交叉验证、网格搜索

机器学习之交叉验证和网格搜索

详解机器学习损失函数之交叉熵

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)