风控项目-收集基础知识1

信用违约风险的基本概念

交易对手未能履行约定中的义务而造成的经济损失的风险(时间)

违约指标:

(PD)违约概率:当前没有发生未来可能发生的可能性

(LGD)违约条件下的损失率:有信贷机构催收期

(EAD)违约风险下的敞口暴露:当前已经发生违约情况下欠多少钱

信用违约的主体:

个人违约:个人向金融机构,在设定期限内没有偿还

公司违约:公司向金融机构没有还款,或者公司发行债券没有履行

主权违约:一国政府无法向外借来的债务违约(如:阿根廷)

个人违约定义:M3(严重逾期)、债务重组、个人破产、银行主动关户或注销

M0:最后缴款日之后一个月

M1:最后还款日后一个月到后两个月

M3:最后还款日超过3个月

申请评分卡

信贷场景中的评分卡:

1、分数形式衡量风险

2、对未来一段时间内预测

3、有一个明确正区间

4、通常分数越高越安全(信用和逾期率成反比模型)

5、数据驱动

6、反欺诈评分卡、申请评分卡(申请)行为评分卡(监控)、催收评分卡(逾期管理)

申请评分卡:

用在贷款的申请环节,以申请者在申请日以及过去的信息为基础预测未来放款后的逾期或者违约概率

风险控制:借贷生命周期的第一个关口

营销:优质客户识别 (放款额度,利率)

资本管理:可作为PD模型的因子

评分卡特性:

1、稳定性

2、区分性:违约和正常应该有显著差异

3、预测能力:低分人群的违约率更高

4、评分和逾期概率等价:评分可以准确的反应违约概率

用户申请--》准入规则--》满足--》反欺诈--》满足--》三方检验--》申请评分通过--》放款

评分卡模型开发步骤:

1、立项:场景、对象(个人、账户、公司)、目的(决策、流失预警、反欺诈)

2、数据准备与预处理:账户、客户

个人:账户级别信息收集  外部数据:外部机构如电商这个人的相关行为

3、模型构建:逻辑回归 && 机器学习(adboost 参数推导等等)

4、模型评估:区分度、预测性、平稳性

5、验证/审计:是否计算错误、逻辑错误

6、模型部署:从开发环境到生产环境、容量

7、模型监控:性能是否减弱,是否需要优化甚至从开发(滞后性

评分卡开发的常用模型:

优点:可解释性,易于监控和部署

缺点:准确度不高

决策树:对数据质量要求低,易解释

缺点:准确度不高

其它元模型:

组合模型:

优点:准确度高,不易过拟合

缺点:不易解释;部署困难;计算量大

贷款申请环节的数据介绍和描述

申请评分卡常用的特征

个人信息  学历 性别 收入

负债信息  在本机构或者其它机构负债情况

消费能力  商品购买记录,出境游,奢移品消费

历史信用记录  历史逾期行为

还款意愿(个人信息、历史信用记录)* 还款能力(负债信息、消费能力)

新兴数据  人际社交 网络足迹 出行 个人财务

非平衡样本问题的定义和解决方法

信贷风险:正常用户远大于违约用户

降低减少类样本的灵敏性

非平衡样本的解决方案:

过采样

优点:简单,对数据质量要求不高

缺点:过拟合

欠采样

优点:简单,对数据质量要求不高

缺点:丢失重要信息

SMOTE(合成少数过采样技术)

优点:不易过拟合,保留信息

缺点:不能对有缺失值和类别变量做处理

SMOTE算法

1、采样最近邻算法,计算出每个少数样本的K近邻

2、从K个近邻中随机挑选出n个样本进行随机线性插值

3、构造新的少数类样本

      new = xi + rand(0,1)*(yj-xi) xi为少数类中的一个观测点,yj为k个近邻中随机抽取的样本

4、将新样本与原数据合成,产生新的训练集

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/81515678
今日推荐