知识图谱在风控上的应用

1. 搭建风控算法流程

  整体流程为:已经构建好的KG(知识图谱)->特征工程->模型。

  风控知识图谱中一般包括进件、申请人、电话等实体,其中进件指的是资料准备好后提交给贷款公司或银行的系统里面。特征工程指的是围绕某个申请人提取出一些有效的特征或者信息。

1.1 特征工程

  特征分为两大类特征:申请人相关特征和从知识图谱中提取出的特征。

  其中申请人相关特征:年龄、收入、工作性质、学历、婚姻状况等等。该部分特征不需要从知识图谱获得,直接从业务库得到即可。

  其中从知识图谱提取出的特征:

  1. 从规则提取出来的特征:申请人是不是第一次借款(0 or 1) 、申请人的朋友之前有没有逾期过(0 or 1)

  2. 直接提取出来的特征: 申请人的二度关系中有多少个节点触碰了黑名单(比如3个)、申请人的电话记录中晚上12点到凌晨2点的电话比例是多少(比如0.1)?

  从知识图谱中提取出来的数字特征(float或者int类型),都可以转换成规则(规则的结果是布尔型)。规则是数字特征的特例。

1.2 模型

  • 逻辑回归
  • GBDT
  • SVM
  • 神经网络

2. 风控模型的评估

  • 准确率,在样本极度不均衡的条件下,该指标不能反映真实的情况。另外在不同的场合中,漏报(把1识别成了0)和误报(把0识别成了1)的容忍度不一致。
  • AUC
  • KS值

3. 逻辑回归

  逻辑回归是最经典的分类算法,70~80%的工业界场景中都可以使用该算法。

3.1 应用场景

经常用到二分类问题上:

  • 贷款违约情况(违约/不违约)
  • 广告点击问题 (会点击/不点击)CTR预估
  • 商品推荐(会购买/不会购买)
  • 情感分析(正面/负面)
  • 疾病诊断(阳性/阴性)
发布了178 篇原创文章 · 获赞 389 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/herosunly/article/details/103784133