データマイニング#要約財務リスク管理

211-元のプログラムとして2つの大学の間に金融学部インターンシップから来た財務リスクの制御方向のデータ解析とマイニングを行うために、金融テクノロジー企業です。今日では、一年以上後に、知識の並べ替え、メモリ制御知識ダウン風に金融エクスポージャーの少し要約する機会によります。

最初のインターンシップは、特に中小金融、銀行、金融サービス企業のビッグデータのリスク管理部門のインターンで開催された国の唯一のライセンスは、企業が、中小銀行の収集コアビジネス・システムを提供し、ジュニア海外で年間の交換の終わりの前にありましたインターネットバンキングシステム、アウトリーチサービスプラットフォーム、ビッグデータサービスおよびオペレーション、リスク管理支援情報技術ソリューションと訓練、協議、協力、技術革新やその他の多様なサービスのフルレンジ。

交換Bの終了前に第二の練習は成都、不正防止部門の金融テクノロジー企業のシニア大学院のインターンです。リスクを管理するために、どのように「顧客を取得する方法、」小売変換で遭遇銀行や他の金融機関が解決するための会社「」「その操作を確保するための方法」、「どのようにシステムサポート」やその他の問題、ローンをカバーする前に、ローン、住宅ローンライフサイクル管理の後。

伝統的な金融貸出業務の前にローンプロセス:

ユーザーは、融資を申請するために来個人的で主観的な詐欺詐欺のギャングが落下することを拒否し、不正検出を通過した後、人によって信用の評価を行います、利益を最大化しながら、融資額を計算し、最終的なモデルの量に応じました。

偶然にも、Bにより、両社は、単に融資プロセスの前に詐欺の身分証明書とクレジット評価をカバーし、インターンシップ。

Bの不正検出

知識は方向をマップ

主に分割プロファイリングに関連する多くの方法がある二つのカテゴリーには:

一つは、ネットワークの直接抽出は、特徴を使用するルールやリスク評価モデルの上位システムのための第二度または関連機能の中心回抽出します。

高い需要のリアルタイムの意思決定の詐欺の場合は、これらの指標は、リアルタイムの抽出を必要とします。これらの指標の一部、関連性(二次程度)のような2度は、複雑度が非常に高く、一般的な場合に計算されます。動的図形の場合には、通常は、いくつかの近似アルゴリズムと事前計算を要します。二度目の関連性を説明するためにここに。例えば、ネットローンアプリケーションで、アプリケーションの目標数との接触の最初の程度は、これらのアプリケーションや他のアプリケーションが、同じアドレスを共有し、申込書にこれらのアプリケーションの特定された場合、連絡先番号に関連付けられた同じアプリケーションを共有しています二回目の団体。

そのようなノードは詐欺の影響は​​非常に重要であり、実際には、関連ノードまたは第二度黒タッチ関連していたかどうかなど、いくつかの簡単な指標。

第二のカテゴリーは、掘削ネットワーク情報の深さです掘削の深さは、通常の社会的属性に弱い金融アプリケーションのために、より大きな接続部分グラフは、暴露の詐欺ネットワークでの役割を有していてもよく、接続された部分グラフの計算から始まります。これに基づき、我々はまた、さらにコミュニティ(共同体の検出)を展開見つけることができます。このコミュニティの中に発見、接続部分グラフと同じではありません、より厳しい目標の収束です。さらに、比詐欺を介して広がる、または染色では、より多くの詐欺的なラベルを得るために、既知の不正なラベルの広がりは、また、マップに関連する重要なアプリケーションです。

ラベル伝播アルゴリズム

・ラベル伝播アルゴリズム

ラベル伝播アルゴリズムは、図中の半教師あり学習法に基づいて、基本的な考え方は、マークされたノードマークされていないノードのラベル情報を予測するためのタグ情報を使用することです。

サンプル間の関係を使用して、図の完全なモデルの関係は、完全な図、エッジは二つのノードの類似度を表す標識および非標識データを含むノードに、他のノードへのノードのラベルは、類似性によって渡さ。タグデータソースと同様に、より大きな類似ノードラベルが広がり、より容易に、標識されていないデータに標識することができます。このアルゴリズムは、単純で実装が容易なアルゴリズムの実行時間は、低複雑性と優れた分類結果、短く、良い説明を持っています。

スプレッドラベルで詐欺でアルゴリズム

ラベル伝搬アルゴリズムによって識別顧客調査に詐欺でマーク、「不良」ノード情報に応じて、2つのノード間の類似度、ノードリスクのレベルを示す側と、マークされていない不正ノードのリスクの程度を予測するためにタグ付けされました類似度は、他のノードは、図の色の視覚的表示のための危険度に送信されます。

たとえば、3人がいる:暁明、赤、王は、彼らは良い友達で、現在知られている暁明はまた、人々を借りていない、赤は、また、その後、彼らの友人王として、人々を借りないこともありますまた、より大きな平均的な人の相対的確率を、借りていません。これは、「何も疑問を何も知らない」のと同じ理由であると言う古い格言です。

PageRankのアルゴリズム

・PageRankのアルゴリズム

PageRankが、PRと呼ばれる、アルゴリズムのランクページの信頼性と重要性を評価するために使用され、ページランク考慮すべき指標の一つである、GoogleのメインのWebサイトによって開発されました。

PageRankのアルゴリズムは、主に2つの仮定に基づいている:まず、インバウンドリンク仮説の数(インバウンドリンクのより多くの数のウェブページ、それは度が高い重要ですので)、2番目はチェーン仮説の品質である(それは、高品質なページになりますページリンク)より多くの重量をもたらすために。これら2つの仮定に基づいて、ページランクアルゴリズムは、いくつかの反復の後に、各ページの重み値の権利を安定化するために、リンクページとの関係に基づいて、各ページの初期重み値を設定します。一般ノードの高い重み値は、より信頼性の高いウェブサイトであると考えます。

・PageRankのアルゴリズム不正防止のアプリケーションで

PageRankのPageRankアルゴリズムは、ネットワークノードの値を複雑な関係の重要性を同定する方法です。PageRankの値が各ノードの最終的なPageRankの値を取得するために、安定するまでの初期段階では、ネットワーク内のすべてのノードとの間の関係は、同じページランク値、絶えずノードのPageRankの値を更新するために対応する確率行列内のネットワークノード転移、ノードセット。機械学習経験人口疑われる詐欺の高いセグメントを探して、高、中、低のセグメント分類の各ノードの最終のPageRank値の関係の複雑なネットワークをモデル化に基づく詐欺に基づいてバックグラウンドデータ、。

これは、体重、大きなリスクも大きい、どのような重量がありますか?これは、重要なまたは重要でない、多くの人が知っているか、どのくらい他の人との接触です。人気話すが非アクティブ人口悪者、善玉は、より低キーバー一般的かもしれません悪者よりアクティブな集団です。

コミュニティ発見アルゴリズム

・コミュニティ発見アルゴリズム

コミュニティ発見アルゴリズムは、コミュニティ内の緊密な関係のネットワークをタップするさまざまな統計指標のネットワークを利用することができます。コミュニティは主にGN、SLPA、ニューマンとギャング詐欺が疑われる行為クラスタ鉱業関係の複雑なネットワークのための他のコミュニティ発見アルゴリズムに基づきました。

不正防止コミュニティの発見でアルゴリズム

従来のオンラインコミュニティの品質の測定値を割る:複雑なネットワークのエッジメディエーターの初期数(最短側を通るパスの数のすべてのノード間の最短経路)を計算するために、実施例及びQ値(モジュールとしてGNアルゴリズムネットワークが分割されると、Q値が元の分割ケースよりも大きい場合法)、メディエータ側縁の最大数を除去するが、Q値は、ネットワークに再計算され、その後、現在のネットワークとQ値が更新され、そうでなければ、まで繰り返すためネットワークのセグメント化が完了しています。各コミュニティには、詐欺の疑い他の人に高い類似性を採掘、ノードの分布で詐欺を見つけることによって割った地域社会で高い類似性にノードを分割しました。

たとえば、あなたはスクエアダンスの日ジャンプする人の2グループ、人々のグループを持っていることがわかり地区は、人々の別のグループは、毎日のクラスを秘密主義。たぶん、ギャングは借用金に銀行に行きます。このスクエアダンスにジャンプする人々のグループ、またボロー金銭であり、そしてないボローお金に人々のグループもあり、ボローお金一度、チャンスは大きな報い;クラスの人々のグループ、お金を借りる人また、その後、チャンスは大きいの上にお金を返済していない、一度ボローお金に人、ボローお金がありませんでした。

 

インターンシップの過程で、私はアルゴリズムのコンバインのグラフアルゴリズムを学習し、知識モデリングマシンの少しを使用しました。不正行為を検出することは比較的容易LR XGBoostの金融リスク管理で、プロジェクトのほとんどの機能を内蔵し、知識グラフアルゴリズムを使用して(0,1分類)

ここでは、モデリングプロセスに関与するいくつかのトリックです

1.networksビルドネットワーク図

networkxは2002年5月にグラフ理論は、Python言語と複雑なネットワークモデリングツールで開発された組み込みの複雑なネットワーク解析アルゴリズムと共通のチャートである生産、ネットワークを簡単に複雑なデータ解析、シミュレーション、モデリング作業を行うことができます。

使いやすい任意の支援の境界寸法、豊富な機能を備えた、; networkxサポートする単純な無向グラフ、有向グラフと多重グラフの作成、構築された多くの標準的なグラフアルゴリズム、ノードは任意のデータとすることができます。

Networkxは、ネットワークデータを格納するための標準と非標準のフォーマットを使用し、ランダムネットワーク古典的な複数のネットワークを生成し、ネットワーク構造解析、ネットワークモデルを確立し、新しいネットワークアルゴリズムの設計、ネットワーク図などができます。

グラフは、描写する点や線を持つものの離散集合にリンクされているいくつかの方法で物事の各ペア間の数学的モデルです。

図のネットワークと、複数の概念及び定義を含む重要領域として図ネットワーク(有向グラフ及びネットワーク)、ネットワーク(無向)の概念図がなく、等。

グラフのどこでも、現実の世界では、こうした交通マップ、観光マップ、フローチャートのように、というように。ここでは、その点と線の地図のみを考えます。

図では、簡単に輸送ネットワークを描くことができるようにすることを、実際の生活の中で、パスを表し交点との間の接続点として表現することができる多くのものを記述することができます。

グラフノードの集合の定義とグラフは、エッジのセットを含みます。

NetworkXにおいて、ノードは、任意のハッシュオブジェクト(なし以外のオブジェクト)であってもよいし、エッジは、テキストのストリングなど、任意のオブジェクト、画像、XMLオブジェクト、あるいは他の任意のカスタマイズされた図のノードに関連付けることができますオブジェクト。

注: Pythonはオブジェクトなしタイプのノードではありません。

属性と豊富な辞書のいずれかのタイプの他のタイプのデータを格納することが可能なノードとエッジ。

  • グラフ:手段無向グラフ(グラフを無向)、2つのノード間のエッジの方向を無視します。
  • 有向グラフは:図を参照する(有向グラフ)、すなわち、エッジが指向性であると考えられます。
  • マルチグラフ:無向グラフ、すなわち2つのノード間のエッジの数が複数であり、エッジに関連付けられた頂点とそれらを可能にすることによって、複数のことをいいます。
  • MultiDiGraph:マップの複数のバージョンがあります。

https://www.cnblogs.com/minglex/p/9205160.html

ネットワークの図2の様々な特性(同じNetworkXを構築し続けることができます)

ページランク

https://www.cnblogs.com/jpcflyer/p/11180263.html

権威&ハブ

当局は、高品質のリンクページ権限ページに多くのポイントが含まれている高品質なページの特定のトピックやフィールド、ハブページに関連するページを指し、例えば、hao123ホームハブは、典型的な高品質のページです。

学位中心性

中央手段のノードに対するノードの次数より大きなネットワークにおけるより高い、より重要なノードという。

図において、ネットワーク内の各点3.deepwalk機能をコーディング。

この問題を解決するための機械学習アルゴリズムを使用すると、多くの情報を必要としますが、ネットワークの現実の世界では情報が多い比較的小さいにつながる、伝統的な機械学習アルゴリズムは、広くネットワークで使用することはできませんPsが選択: 伝統的な機械分類学習学習仮定、サンプルのクラスラベルにサンプル特性のマッピングをするが、実際のネットワーク内のノードの属性情報は、多くの場合、従来の機械学習方法は、ネットワークには適用できない、比較的小さいです。)

deepWalk ネットワークの特性の研究と比較基本的なネットワーク頂点学習アルゴリズムをベクトル表現アルゴリズムを学習伝統的な機械は解決するために適用することができるように、(すなわち、図の構造は、特徴の属性、すなわち、属性の数およびベクトルの次元数を学習)質問。

  • 革新:

    word2vecをモデル化することにより、言語モデル、スキップグラムベクトル表現を学習ノードを。アナログネットワークノードは、言語モデル中の単語であり、一方、スキップグラムとしてシミュレーション言語文の入力に(ランダムウォークによって得られた)接合配列。

  • 実現可能性:

    以上假设的可行性证明,当图中结点的度遵循幂律分布通俗讲即度数大的节点比较少,度数小的节点比较多)时,短随机游走中顶点出现的频率也将遵循幂律分布(即出现频率低的结点多),又因为自然语言中单词出现的频率遵循类似的分布,因此以上假设可行。(Ps: 为证明有效性,作者针对YouTube的社交网络与Wikipedia的文章进行了研究,比较了在短的随机游走中节点出现的频度与文章中单词的频度进行了比较,可以得出二者基本上类似。(幂率分布))

  • process:

    随机游走+skip-gram 语言模型

    通过随机游走得到短的结点序列,通过skip-gram更新结点向量表示。

  • Random Walk

    Random Walk从截断的随机游走序列中得到网络的局部信息,并以此来学习结点的向量表示。

    deepwalk中的实现是完全随机的,根据Random Walk的不同,后面又衍生出了node2vec算法,解决了deepwalk定义的结点相似度不能很好反映原网络结构的问题。

  • skip-gram 语言模型

    skip-gram 是使用单词来预测上下文的一个模型,通过最大化窗口内单词之间的共现概率来学习向量表示,在这里扩展之后便是使用结点来预测上下文,并且不考虑句子中结点出现的顺序,具有相同上下文的结点的表示相似。(Ps:两个node同时出现在一个序列中的频率越高,两个node的相似度越高。)

    结点相似性度量: 上下文的相似程度(LINE中的二阶相似度)

    共现概率根据独立性假设可以转化为各条件概率之积即

    对序列中的每个顶点,计算条件概率,即该结点出现的情况下序列中其他结点出现的概率的log值并借助随机梯度下降算法更新该结点的向量表示。

    Φ(vj)为当前结点的向量表示。Hierarchical Softmax用于分解并加快计算第三行的条件概率。

4.sklearn——CountVectorizer 文本特征提取

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。

CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。

https://blog.csdn.net/pit3369/article/details/95643392

5.样本不平衡

在现实收集的样本中,正负类别不均衡是现实数据中很常见的问题。一个分类器往往 Accuracy 将近90%,但是对少数样本的判别的 Recall 却只有10%左右。这对于我们正确找出少数类样本非常不利。

举例来说:在一波新手推荐的活动中,预测用户是否会注册的背景下,不注册的用户往往是居多的,这个正负比例通常回事1:99甚至更大。一般而言,正负样本比例超过1:3,分类器就已经会倾向于负样本的判断(表现在负样本Recall过高,而正样本 Recall 低,而整体的 Accuracy依然会有很好的表现)。在这种情况下,我们可以说这个分类器是失败的,因为它没法实现我们对正类人群的定位。

https://zhuanlan.zhihu.com/p/28850865

 

A信用评估

业界常说的有A卡、B卡、C卡,A卡就是申请评分卡。在你申请的时候就会站出来,决定放不放款,B卡,也就是贷中行为评分卡,监控你的信用状况,决定给不给你提额度,或者中不中断你的贷款,C卡就是贷后评分卡,一般有三种:账龄迁移模型、还款率模型和失联预警模型。 
账龄迁移:就是预测你的逾期状况会不会从M1迁移到M2 
失联预警模型:对于银行和贷款公司来讲,有时不怕你不还钱,如果逾期了还能对你进行罚息等方式再赚一笔,更怕的反而客户失联,彻底消失,所以就需要建立失联预警,看一看你未来有没有可能失联。 
还款率模型:注意这个模型不是为了预测你还不还钱,而是预测未来经过催收动作后,还款的概率。毕竟贷后催收,是需要人力、物力成本的,如果一个人简单催一催,例如发个短信,打个电话就还了,何必动用戴金链子的老铁们上门,出于平衡成本的需要,制定不同的催收套路,这个模型就可以起作用了。

数据来源主要是 运营商数据、埋点数据、线上数据、征信数据、线下提供数据等等。

传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,最后得到申请人的信用评分,依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。

互联网金融的大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度。互联网风控中,首先还是利用信用属性强的金融数据,判断借款人的还款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用风险之间的关系。

互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人实际风险。常用的互联网金融大数据风控方式有以下几种:

1验证借款人身份

验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。

如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。

其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证客户的学历证书和身份认证。

2分析提交的信息来识别欺诈

大部分的贷款申请都从线下移到了线上,特别是在互联网金融领域,消费贷和学生贷都是以线上申请为主的。

线上申请时,申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址,工作单位,单位电话,单位名称等。如果是欺诈用户,其填写的信息往往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相同、单位名称相同、甚至居住的楼层和号码都相同。还有一些填写假的小区、地址和单位名称以及电话等。

如果企业发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。

3分析客户线上申请行为来识别欺诈

欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。

企业可以借助于SDK或JS来采集申请人在各个环节的行为,计算客户阅读条款的时间,填写信息的时间,申请贷款的时间等,如果这些申请时间大大小于正常

客户申请时间,例如填写地址信息小于2秒,阅读条款少于3秒钟,申请贷款低于20秒等。用户申请的时间也很关键,一般晚上11点以后申请贷款的申请人,欺诈比例和违约比例较高。

这些异常申请行为可能揭示申请人具有欺诈倾向,企业可以结合其他的信息来判断客户是否为欺诈用户。

4利用黑名单和灰名单识别风险

互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。

市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。

黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。

灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。

黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。

5利用移动设备数据识别欺诈

行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。

欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件

欺诈用户还有可能不停更换SIM卡和手机,利用SI;6利用消费记录来进行评分;大数据风控除了可以识别出坏人,还可以评估贷款人的;按照传统金融的做法,在家不工作照顾家庭的主妇可能;常用的消费记录由银行卡消费、电商购物、公共事业费;互联网金融的主要客户是屌丝,其电商消费记录、旅游;据分析,只要客户授权其登陆电商网站,其可以借助于;7参考社会关系来评估信用情况;物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。

6利用消费记录来进行评分

大数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。

按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。

常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。

互联网金融的主要客户是屌丝,其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析,只要客户授权其登陆电商网站,其可以借助于工具将客户历史消费数据全部抓取并进行汇总和评分。

7参考社会关系来评估信用情况

物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

参考借款人常联系的朋友信用评分可以评价借款人的信用情况,一般会采用经常打电话的朋友作为样本,评估经常联系的几个人(不超过6六个人)的信用评分,去掉一个最高分,去掉一个最低分,取其中的平均值来判断借款人的信用。这种方式挑战很大,只是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别,利用其经常通话的手机号在黑名单库里面进行匹配,如果命中,则此申请人的风险较高,需要进一步进行调查。

8参考借款人社会属性和行为来评估信用

参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人,其贷款违约率较低;

年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违约率最高,

30岁左右的人违约率最低。贷款用于家庭消费和教育的贷款人,其贷款违约率低;

声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率高;

贷款次数多的人,其贷款违约率低于第一次贷款的人。 

经常不交公共事业费和物业费的人,其贷款违约率较高。

经常换工作,收入不稳定的人贷款违约率较高。

经常参加社会公益活动的人,成为各种组织会员的人,其贷款违约率低。

经常更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多。

午夜经常上网,很晚发微博,生活不规律,经常在各个城市跑的申请人,其带贷款违约率比其他人高30%。

刻意隐瞒自己过去经历和联系方式,填写简单信息的人,比信息填写丰富的人违约概率高20%。

借款时间长的人比借款时间短短人,逾期和违约概率高20%左右。拥有汽车的贷款人比没有汽车的贷款人,贷款违约率低10%左右。

9利用司法信息评估风险

涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。

寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据,但是难度较大。也可以采用移动设备的位置信息来进行一定程度的识别。如果设备经常在半夜出现在赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高。另外中国有些特定的地区,当地的有一部分人群从事涉赌或涉赌行业,一旦申请人填写的居住地址或者移动设备位置信息涉及这些区域,也要引起重视。涉赌和涉毒的人员工作一般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有收入,这种情况需要引起重视。涉赌和涉毒的人活动规律比较特殊,经常半夜在外面活动,另外也经常住本地宾馆,这些信息都可以参考移动大数据进行识别。 

总之,互联网金融的大数据风控采用了用户社会行为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点,能够更加全面识别出欺诈客户,评价客户的风险水平。互联网金融企业通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人,保证资金的安全。

 

 

发布了10 篇原创文章 · 获赞 2 · 访问量 1790

おすすめ

転載: blog.csdn.net/weixin_41814051/article/details/104333603