对风控的理解

最近一直关注风控方向的知识和业务，我做下总结吧！

1. 技术篇

机器学习算法（这个是最多的，要明白每个模型的优缺点，适用范围，对模型本身要理解透彻）

深度学习算法：GAN,迁移学习，强化学习等新的技术

2. 基本理解

（1）风控的定义：风控就是风险控制

主要分为2大方向：信用风控（打分，芝麻分之类）；反舞弊风控（很多黑产活跃在互联网上，你就要通过风控和坏人做对抗；这个对抗不能只停留在防御上，更多的要站在坏人的角度去思索他们是怎么欺诈的，怎么获取利益的）

风险行为的定义：

账户安全问题：盗卡，盗余额支付

商家刷单：帅排名，刷销量，刷好评

用户作弊：”薅羊毛“，也就是获取一些优惠卷（通过反复注册新用户等行为）

（2）风控的特性

　　　　高对抗性：要24小时防御；因为有组织的找平台bug进行盗卡，或者是盗号这样的太多了。

　　　　准确性：2个要素准确性和召回率（我们关注的是异常样本，宁可错杀100也不放过一个？？？其实这个准确度也很重要，把好的用户判别成坏的用户会遭到用户的投诉之类，不划算啊）

灵活性：人工对抗不合理，最好我们设计出的模型或者产品可以实现谁是监督，随时修改，实现一个自我判断学习的过程！

3.风控的整体架构

风控的整体架构可以分为三个大的系统：

区分的标准是根据策略的速度：

如图所示第二层是策略系统。策略系统时风控的核心系统，包含着规则、管理以及监控的功能。

策略系统在设计的过程中，最关键的是：

最下面一层是特征库，具备黑白名单、统计数据以及特征数据等功能。特种库对于系统的性能应该是最重要的，因为亿级体量的数据量是十分庞大的，因此在设计时要用到一些大数据框架。

图中左侧的处理系统即统一的处罚系统，无论是对商家还是用户的处罚都会归到这个处罚系统中；右侧主要是一些公共组建，包含过载保护、报表、监控报警等等功能。这就是一个完整的风控架构。

4.风控模型策略

1. 异常检测

可以简单分为三种：

基于数据统计，例如同一个 IP 登陆成功率非常高，这是有风险的信号，背后可能意味着是同一伙人，100 个人不可能说一次性都能输对密码，违反常理；同样的，登录成功率非常低的，可能就是暴力破解、撞库。基于数据统计，可以找到异常特征。
聚类，聚类完成之后会有离群点，离群点即可判断为异常。
孤立森林，这个方法在异常检测领域效果最好，它的理论是将一个人的所有行为想象成一棵树，在某些分支上与其他分支出现了强不同，则该分支出现了问题。例如你同一台设备同一个 IP，导致你的行为都是类似的；但有的人同一个 IP 多台设备，很容易被这种方法捕捉到异常。

2. 知识图谱

如图所示，知识图谱即多对多的关系，举登录的例子，设备 ID 与登录 ID 未必是一对一的关系，同一台设备可以有多个人登录，同一个登录 ID 又可以在多个设备上登录，但重要的是一个人无法同时登录 N 个设备，同样 N 个设备也不可能被 N 个人登录，因此很容易捉到异常。

3. 用户画像