机器学习之金融信贷风控（一）互联网金融业申请评分卡的介绍

金融信贷风控中的机器学习

在信贷风控领域，随着大数据、计算机集群技术、网络技术和人工智能的发展，越来越多的金融机构将传统的策略风控手段转向依赖机器学习模型等量化手段。信贷环节中的审批、预警、催收以及营销等诸多场景也适合机器学习模型的应用。机器学习模型的发展离不开数学、统计、概率、计算机理论等基础知识。本课程将从较为基础的统计和概率入手，展现如何从从基础知识入门进而掌握较为先进的机器学习模型，从而构建简单但实用的风控模型。此外，编程能力也是风控模型搭建中必不可少的能力。本系列课程将实用功能强大、入门简单的Python语言。在Python中既有丰富的开源包可以使用，也可以定制化地开发有针对性的模块来构建风控模型。

在金融贷款机构中，风控部门是核心部门之一。风控体系的好坏直接决定机构盈利能力和存活能力。本课程将介绍数据分析技术如何应用在互联网金融行业风控部门涉及到的信贷违约预测和催收还款预测。课程中将使用贴近真实业务场景的数据，并且给出切实可行的解决方法。

在文中，我们将实用真实的业务数据介绍信贷机构在信用风控领域常用的三种风险预测模型，从而帮助学员了解贷前审核、贷中预警、逾期催收的风控量化途径。同时学员也能掌握目前评分卡模型最前沿的技术。

互联网金融业申请评分卡的介绍

信用违约风险的基本概念

1.什么是信用违约风险？

信用风险又称违约风险，是指借款人、证券发行人或交易对方因种种原因，不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性。银行存在的主要风险是信用风险，即交易对手不能完全履行合同的风险。这种风险不只出现在贷款中，也发生在担保、承兑和证券投资等表内、表外业务中。如果银行不能及时识别损失的资产，增加核销呆账的准备金，并在适当条件下停止利息收入确认，银行就会面临严重的风险问题。

信用违约风险(CreditDefaultRisk)是指在商业交易中由于交易一方的违约，使交易另一方得到的预期现金流量现值减少而遭受的风险。

交易对手未能履行约定契约中的义务而造成经济损失的风险，即受信人不能履行还本付息的责任而使授信人的逾期收益与实际收益发生偏离的可能性，它是金融风险的主要类型。

2.组成部分：

PD		违约概率（表现期）
LGD		违约条件下的损失率
EAD		违约风险下的敞口暴露
RWA		风险权重资产
EL		期望损失

违约概率（probability of default, PD），是指借款人在未来一定时期内发生违约的可能性。违约概率是实施内部评级法的商业银行需要准确估计的重要风险要素，无论商业银行是采用内部评级法初级法还是内部评级高级法，都必须按照监管要求估计违约概率。违约概率的估计包括两个层面：一是单一借款人的违约概率；二是某一信用等级所有借款人的违约概率。
违约损失率（LGD，loss given default)，违约损失率是指债务人一旦违约将给债权人造成的损失数额，即损失的严重程度。违约损失率也是国际银行业监管体系中的一个重要参数。违约损失率LGD是指债务人一旦违约将给债权人造成的损失数额，即损失的严重程度。从贷款回收的角度看，LGD决定了贷款回收的程度，因为，LGD=1－回收率，回收率之定义为回收金额除以放款金额。此处的回收金额，定义为该帐户违约，宣告无法偿债后，因拍卖担保品，强制执行借款人存款或其他催收方式所得回之金额。因此，通常除非有担保品，回收比率大部份非常低。也就是说违约损失率之大小，会取决于担保品的特性。

构成一个完整风险概念的两个基本要素是损失的可能性和一旦损失发生后的损失规模，即损失的严重程度。因此，LGD是除违约概率PD以外反映信用风险水平的另外一个重要参数，两者结合在一起才能全面反映信用风险水平。显然，PD既定的情况下，LGD越高，信用风险越大。**预期损失率(Expected Loss, EL)**是反映信用风险的一个指标，它是LGD和PD的乘积。

其中**EAD(Exposure at Default)**是指违约发生时债权人对于违约债务的暴露头寸。在经济学中，EAD是违约风险敞口之意。英文全称是：Exposure At Default。就是可能发生违约风险的资金额度。

PD和LGD都是反映债权人面临债务人违约的信用风险的重要参数，因此，两者都受到债务人信用水平的影响，然而，从性质上看，两者又有重要的区别。总的来说，PD是一个交易主体相关变量，其大小主要由作为交易主体的债务人的信用水平决定；而LGD具有与特定交易相关联的特性，其大小不仅受到债务人信用能力的影响，更受到交易的特定设计和合同的具体条款，如抵押、担保等的影响。因此，对于同一债务人，不同的交易可能具有不同的LGD，如对于同一债务人的两笔贷款，如果一笔提供了抵押品，而另一笔没有，那么前者的LGD将可能小于后者的LGD。因此，对PD和LGD的分析应有不同的着眼点。
　
除了上述交易项目相关特性以外，西方在LGD方面的研究和实践表明LGD还具有以下一些特点：LGD概率分布呈现双峰分布的特征；LGD与PD呈正相关的关系；LGD与破产法等法律制度密切相关；LGD波动幅度大，影响因素多，且研究历史短，数据稀少，因而量化难度大。

在经济学中，EAD是违约风险敞口之意。英文全称是：Exposure At Default。就是可能发生违约风险的资金额度。

风险加权资产RWA（risk-weighted assets）是指对银行的资产加以分类，根据不同类别资产的风险性质确定不同的风险系数，以这种风险系数为权重求得的资产。银行业的总资产有很多资产是0风险权重的，有很多风险权重则很高。这个要看每个银行的资产负债结构的配置，一般来说风险权重高的收益也更高。具体的风险权重列表需要查询央行和银监会关于银行资本充足率管理办法。举例来说，国债就是0风险权重的，外国国债评级在AA-以下的则是100%，评级在AA-以上的国家的企业债务风险权重则为50%。

**预期损失（Expected Loss，EL）**是商业银行预期在特定时期内资产可能遭受的平均损失。预期损失是比较确定的，实际发生的损失一般围绕平均值波动。因此在管理上，可以把平均损失值看成是相对确定的，以准备金的形式计入商业银行经营成本，可通过定价转移在产品价格中得到补偿。现代商业银行将预期损失视为风险成本，作为总成本的一部分。

3.信用违约风险的控制手段

从最早的有抵押无规则→无抵押有规则→数据模型，形成了目前在风控领域的基本风控脉络；现今主要采用基于数据驱动建立的风控模型，主要就是目前应用最广泛最多的评分卡模型，评分卡模型主要由分为四种，即：

申请评分卡
行为评分卡
催收评分卡
反欺诈评分卡

其中最重要的就是金融申请评分卡，目的是把风险控制在贷前的状态；也就是减少交易对手未能履行约定契约中的义务而造成经济损失的风险，里面由包括了个人违约、公司违约（包括债券违约）、主权违约（对外国家违约），这里仅仅只讲到个人违约；

4.个人违约

个贷中常用的违约定义

M3&M3+逾期（严重逾期）：这个是最主要的指标，判断是否逾期主要根据M3&M3+逾期来判断
债务重组
个人破产
银行主动关户或注销
其他相关违约行为
其他概念性指标：
- M0：最后缴款日的第二天到下一个账单日；
- M1：M0时段的延续，即在未还款的第二个账单日到第二次账单的最后缴款日之间；
- M2：M1的延续，即在未还款的第三个账单日到第二个账单的最后缴款日之间；

5.行业内的一些案例

趣店CEO罗敏：“凡是过期不还的，我们这里就是坏账，我们的坏账，一律不会催促他们来还钱。电话都不会给他们打。你不还钱，就算了，当作福利送你了”

这方面就反应了趣店对自己的贷前风控非常有把握，同时也说明在前期趣店的利率较高，另外一个方面，因为目前的消费贷场景上，一般贷款的金额较少，追贷成本高，必须要把风控争取控制在贷前。

陆金所CEO表示在2015年11月，行业的坏账率大概在15%-20%之间，2016年1月，已经下降到了13%-17%。

评分卡概念

1.评分卡模型主要有以下这么几个概念：

以分数的形式来衡量，这个分数主要根据客户的好坏比来确定；
是对未来一段时间内违约/逾期/失联概率的预测
有一个明确的正区间
通常分数越高越安全
数据驱动

主要的评分卡模型在互联网金融方面的表现形式是：申请评分卡、反欺诈评分卡、行为评分卡、催收评分卡。其中申请评分卡、反欺诈评分卡使用在申请环节，行为评分卡使用在监控环节，催收评分卡使用在逾期管理环节。

2.申请评分卡

申请评分卡用在申请环节，以申请者在申请当日及过去的信息为基础，预测未来放款后的逾期或者违约的概率。

开发申请评分卡的目的有：

可以做风险控制：借贷生命周期的第一个关口就可以把控住优质客户
营销：做好优质客户的识别

我们一般预测未来放款后的逾期，这个未来的时间段，在我工作经历当中，一般是一年左右，时间更长就是用行为评分卡，或许在银行等大型机构，因为收集的信息更全面，在评分方面的要求不一样，可能对未来的预测时间也不一样，或许时间会更长。

3.申请评分卡的特性

优秀的评分卡应该具备的特性：

稳定性：当总体逾期/违约概率不变，分数的分步也应该没有改变
区分性：违约人群与正常人群的分数应当有显著的差异，具体如下图所示：
预测能力：低分人群的违约率更高
和逾期概率等价：评分应该可以精准地反应违约/逾期概率，反之亦然

4.评分卡模型开发步骤：

立项：场景、对象、目的
数据准备与预处理：账户、客群、内部/外部数据
模型构建：逻辑回归vs机器学习，单一模型vs集成模型
模型评估：区分度、预测性、平稳性
验证/审计：是否有机酸错误、逻辑错误、业务错误
模型部署：从开发环境到生产环境、容量、并发度
模型监控：模型性能是不是比较稳定，是否需要优化甚至从开发（滞后性）

5.评分卡开发的常用模型：

逻辑回归
优点：简单、稳定、可解释性、技术成熟、易于检测和部署
缺点：准确度不高
截止目前，看到的评分卡模型基本都是用逻辑回归开发的，优点比较多，稳定和解释性强，解释性强因为在对比其他分数期间，逻辑回归相对是有多个可加项，可具体比较，SVM就基本做不到，缺点是对数据质量的要求非常高，需要在数据预处理方面花很多的时间，模型的简单但是开发成本并不低；
决策树
优点：对数据质量要求低，易解释
缺点：准确度不高
决策树模型方面，对数据质量要求低，也比较容易解释，但是模型的准确度不高；
其他元模型
组合模型
优点：准确度高，不易过拟合
缺点：不易解释，部署困难，计算量大
组合模型方面，部署比较麻烦，在评分卡方面应用不是很多。

贷款申请环节的数据介绍和描述

1.申请评分卡常用的特征即申请评分卡一般需要的字段

个人信息: 学历、性别、收入
负债信息: 在申请的金融机构或者其他金融机构的负债情况（例如月还债金额超过月收入的60%，说明负债较高），例如多投信息等
消费能力 : 商品购买记录、出境游、奢侈品消费
历史信用记录 : 历史逾期行为
新兴数据: 人际社交、网络足迹、出行、个人财务
备注：客户还款能力*还款意愿 = 还款等级

2.这里我提供一份数据，其中字段如下：

字段	名称
member_id	ID
loan_amnt	申请额度
term	产品期限
int_rate	利率
emp_length	工作期限
home_ownership	是否有自有住宅
annual_inc	年收入
verification_status	收入核验状态
desc	描述
purpose	贷款目的
title	贷款目的描述
zip_code	联系地址邮政编码
addr_state	联系地址所属州
delinq_2yrs	申贷日期前2年逾期次数
inq_last_6mths	申请日前6个月咨询次数
mths_since_last_delinq	上次逾期距今月份数
mths_since_last_record	上次登记公众记录距今的月份数
open_acc	征信局中记录的信用产品数
pub_rec	公众不良记录数
total_acc	正在使用的信用产品数
pub_rec_bankruptcies	公众破产记录数
earliest_cr_line	第一次借贷时间
loan_status	贷款状态—目标变量

数据来源：Lending Club公司

非平衡样本问题的定义和解决办法

1.评分卡经常遇到的问题

在评分卡模型中，经常遇到的问题就是非平衡样本的问题。在一个样本里面，坏的样本很少或者好的样本很少，导致了数据的不平衡。

非平衡样本的定义
在分类问题中，每种类别的出现概率未必均衡
例如：
信用风险：正常用户远多于逾期/违约用户
流失风险：留存客户多于流失客户
非平衡样本的隐患
降低对少类样本的灵敏度

2.在处理数据不平衡样本中，一般有三种办法：

过采样：方法简单，就是对少的那一部分样本进行重复采样，并且操作简单，对数据质量的要求也低；缺点是容易造成模型的过拟合（例如坏好比例为1：99，为了增大坏的比例，多次采样，将比例调整到10：99，这样非常容易导致模型过拟合）；
欠采样：优点和过采样类似，缺点是容易造成模型的欠拟合；
SMOTE：优点是不易过拟合，能够保留大量的信息，缺点是不能对缺失值和类别变量做处理。

SMOTE算法原理：

采样最近邻算法，计算出每个少数类样本的K个同类近邻；
从K个同类近邻中随机挑选N个样本进行随机线性插值；
构造新的少数类样本：其中为少类中的一个观测点，为K个近邻中随机抽取的样本
将新样本与原数据合成，产生新的训练集

版权声明：
笔者博客文章主要用来作为学习笔记使用，内容大部分来自于自互联网，并加以归档整理或修改，以方便学习查询使用，只有少许原创，如有侵权，请联系博主删除！