本篇文章作为python和mysql的练习题。并且尝试数据分析在风险控制方面的应用。
参考之乎文章:python分析信用卡反欺诈(上)——逻辑回归、随机森林、SVM三种方法建模比较
数据集包含欧洲持卡人于2013年9月通过信用卡进行的交易。该数据集提供两天内发生的交易,其中在284,807笔交易中有492起欺诈行为。数据集非常不平衡,负面类别(欺诈)占所有交易的0.172%。
它只包含数值输入变量,这是PCA变换的结果。不幸的是,由于保密问题,我们无法提供有关数据的原始特征和更多背景信息。特征V1,V2,... V28是用PCA获得的主要组件(PCA主成分分析),唯一没有用PCA转换的特征是'Time'和'Amount'。
- “时间”包含每个事务与数据集中第一个事务之间经过的秒数。
- '金额'是交易金额,该特征可以用于依赖于例子的成本敏感性学习。
- “Class”是响应变量,在欺诈的情况下其值为1,否则为0。