信用评分分卡简介

背景

随着金融科技初创企业的兴起，过去 5 年中出现了许多新的消费信贷机构，与传统银行展开竞争。他们通常瞄准银行认为规模太小或因金融危机期间发生的后期损失而不得不削减贷款的细分市场。通俗的讲就是消费金融公司瞄准了银行的次贷市场。

这些新的消费金融公司的主要竞争优势之一是技术，包括IT技术和机器学习建模技术，AI人脸识别和语音识别技术。

大型银行相对传统，保守，技术变革动力小。银行主要客户是信用较好客户，大力推动的是信用卡来鼓励用户超前消费。

例如，英国商业贷款机构 iwoca使用来自关联公司账户、增值税申报表甚至 ebay 或亚马逊上的销售交易的信息来确定新贷款。英国消费贷款公司 lendable以在几分钟内完成个人信用贷款，而不是传统银行需要几天或几周漫长审批的时间。

英国商业贷款机构 iwoca和 lendable，国内消费金融公司例如招联，兴业消金，借呗，微粒贷，拍拍贷都会使用类似下面的风控系统，实现对大部分客户自动化审批贷款。

凭借快速和自动决策引擎，他们使用自动和快速的信用风险模型来评估风险。

什么是信用评分卡

我们大多数人都熟悉信用评分的概念，这是一个代表个人信用度的数值。像银行这样的所有信贷机构都有复杂的信用模型。这些模型会读取用户的各种信息，如工资、信用历史记录，年龄，性别和多头借贷等因素，然后训练模型，最后通过复杂数学计算输出客户的信用评分。信用评分卡模型可以输出用户信用分或违约概率。

信用评分卡就是其中一种信用模型，它是最常见的信用模型之一。信用评分卡是基于逻辑回归算法。它对大家来说相对容易理解，而且它已经存在了几十年，因此开发过程是标准的，广为人知。

信用评分卡也有几个子类模型，常见的有A，B，C卡。

但需要注意的是，不同机构的分数范围可能不同，较低分数的拒绝申请的截止点因贷款人而异，甚至可能在同一贷款人但不同产品中有所不同.

建立信用记分卡

目标变量通常采用二进制形式，根据数据的不同，可以为 0 表示好客户（放贷客户），可以为 1 表示违约客户或逾期 90 天付款的客户（拒绝放贷客户）。

第 1 步：数据探索和清理

所有模型拟合中的必要步骤，但由于它不是特定于构建信用评分卡模型，因此我们将跳过此部分。不要忘记将数据集也分成训练和测试数据集，即train和test数据集。

第 2 步：数据转换——证据权重法

然后我们需要使用证据权重 (WoE) 方法转换所有自变量（如年龄、收入等）。该方法根据每个组级别的好申请人与差申请人的比例，衡量分组区分好坏风险的“强度”，并试图找到自变量与目标变量之间的单调关系。

连续变量的转换步骤：

将数据分成 bin，通常大约 10 个，最多 20 个（bin箱数并非越多越好，也并非越少越好，根据数据集特征决定分箱数量）
计算好事件的百分比和坏事件的百分比
取自然对数计算WOE
用计算出的 WOE 值替换原始数据

如果自变量是分类变量，则跳过上面的 1，然后执行其余步骤。

Python 中的示例：

在将您的数据放入箱子中，并对每个箱子的好坏计数进行分组后，您的数据可能看起来类似于下面的方框。WoE 可以使用下面的代码为每个 bin 组计算。负值表示特定分组中不良申请人的比例高于良好申请人。

import pandas as pd
import numpy as np


# dummy data as example
age = ['18 to 25','26 to 35','36 to 45','46 to 60','>= 60']
df = pd.DataFrame(age, columns=['Age Group'])
df['counts'] = [31234, 30293, 29384, 30192, 27394]
df['bad'] = [4920, 4123, 3784, 2608, 1479]
df['good'] = df.counts - df.bad

# calculate WOE
df['total_distri'] = df.counts/sum(df.counts)
df['bad_distri'] = df.bad/sum(df.bad)
df['good_distri'] = df.good/sum(df.good)
df['WOE'] = np.log(df.good_distri / df.bad_distri)
df['WOE%'] = df.WOE * 100