Un article comprend parfaitement le développement du tableau de bord - la détermination de Y (analyse Vintage, analyse du taux de roulement, etc.)

Le tableau de bord a été utilisé dans les affaires de grandes banques et entreprises, et de nombreux prédécesseurs l'ont développé en détail. Cet article comparera et analysera les différences dans la détermination de la variable dépendante Y dans l'établissement des tableaux de bord dans différentes industries du point de vue de l'établissement des tableaux de bord de paiement et de crédit. Laissez les amis qui veulent comprendre le tableau de bord avoir une compréhension plus approfondie. Et peut tirer des conclusions d'une instance et appliquer la carte de pointage à plusieurs secteurs.
  
insérez la description de l'image ici
  
  

1. Qu'est-ce qu'un tableau de bord ?

  
Dans le domaine de la maîtrise des risques, le tableau de bord est un moyen de mesurer le risque des clients sous forme de scores. Semblable au score de crédit sésame familier, allant de 350 à 950 points, plus le score est élevé, meilleur est le crédit.
  
Les utilisateurs avec 350-550 points ont un crédit médiocre et il est difficile de profiter des avantages d'Alipay.
  
Les utilisateurs avec 550-600 points ont un crédit moyen et peuvent profiter de certains avantages, tels que le séjour dans des hôtels sans caution, l'ouverture du service Huabei, etc.
  
Les utilisateurs avec 600-650 points et un bon crédit peuvent profiter de plus d'avantages.En plus des avantages mentionnés précédemment, ils peuvent également utiliser certains services de voyage sans acompte.
  
Les utilisateurs avec un score de 650 à 700 ont un excellent crédit et peuvent profiter du traitement élevé de Huabei et de l'emprunt.
  
Les utilisateurs avec un score de 700 à 950 ont un excellent crédit et peuvent obtenir plus de commodité lors de la demande de visa de certains pays.
  
Cet article se concentre sur la façon de déterminer Y lors de l'établissement de fiches d'évaluation dans les champs de paiement et de crédit. Pour le principe de la fiche d'évaluation et l'implémentation Python, consultez Principe de la fiche d'évaluation et implémentation Python.

  
  

2. Comment déterminer la variable dépendante Y dans le tableau de bord ?

  
Différentes industries ont des définitions différentes de Y dans la modélisation des tableaux de bord, mais présentent également des similitudes. Cet article prend le champ paiement et le champ crédit comme point d'entrée, et introduit la détermination de la variable dépendante Y.

  

1 Le champ paiement détermine la variable dépendante Y

  
Pour le champ paiement, la définition de la variable dépendante Y est relativement simple. Par exemple, la société dispose de l'accès au réseau et des données de transaction de 100 millions de marchands, et souhaite maintenant créer un modèle pour évaluer quels types de marchands présentent des risques de jeu. Lors de la définition de la variable dépendante Y, vous pouvez définir un commerçant avec le mot "jeu" dans la raison de fermeture historique du système et le statut actuel du commerçant fermé comme 1 (mauvais échantillon).
  
Pourquoi le statut de marchand doit-il être clôturé ? La raison en est que les transactions de certains commerçants sont similaires aux transactions de jeu, et il y aura des cas de faux audits. Si le commerçant a déposé une plainte matérielle après avoir été audité en tant que jeu, cela prouve qu'il est en fonctionnement normal et correspond au champ d'activité du commerçant. Le compte marchand sera rouvert et le statut marchand sera ajusté à la normale. Lorsqu'il y a suffisamment de données d'échantillons erronés, parfois pour des raisons de calcul, seuls les commerçants définis comme jeux d'argent et fermés au cours des deux dernières années sont interceptés pour modéliser les échantillons erronés.
  
Après avoir défini le mauvais échantillon, qu'est-ce qui est défini comme 0 (bon échantillon) ?
  
Il y a deux façons, l'une est que les marchands dont le statut actuel est normal sont définis comme 0, et l'autre est que les marchands dont le statut actuel est normal et n'ont pas été audités comme jeu par l'historique sont définis comme 0. Généralement, la quantité de données des marchands normaux est trop grande, et il est nécessaire de tirer des échantillons normaux en proportion et en temps en fonction du nombre de mauvais échantillons pour construire un modèle.

  

2 Détermination de la variable dépendante Y dans le domaine du crédit

  
Pour le modèle de fraude dans le domaine du crédit, la variable dépendante Y peut généralement être définie par la performance en retard de la première période de remboursement (premier retard). Comme pour le modèle de tableau de bord du domaine de paiement, la définition est relativement simple. Cependant, pour le modèle de crédit dans le domaine du crédit, la détermination de la variable dépendante Y est relativement compliquée et nécessite généralement la combinaison d'une analyse du taux glissant et d'une analyse par millésime.
  
L'analyse du taux de roulement détermine dans quelle mesure les clients en retard sont définis comme mauvais, et l'analyse par millésime détermine la durée pendant laquelle les clients performants peuvent être inclus dans le modèle. Afin de permettre à chacun de comprendre plus clairement la détermination de la variable dépendante Y, définissez d'abord quelques noms qui doivent être utilisés.

  

1. Définition des termes

  
Pour plus de simplicité, une personne seule est utilisée comme exemple. Supposons qu'une personne emprunte un prêt de 10 000 yuans sur une plateforme en ligne à 10 h 08 le 12 avril 2021 et le rembourse en versements égaux avec principal et intérêts au cours des 12 prochains mois. Afin de montrer plus clairement certains noms, mettez ces noms dans la figure suivante pour l'affichage :

insérez la description de l'image ici

  
1. Point d'observation (obs_date) : Point dans le temps du prêt du client (12 avril 2021 à 10h08). Nous utilisons des données sur une période allant jusqu'au moment de la demande de prêt pour prédire la probabilité d'un futur défaut de paiement d'un client.
  
2. Période d'observation : intervalle de temps utilisé pour générer les caractéristiques des clients (variables indépendantes).
  
3. Période de performance : L'intervalle de temps utilisé pour définir si un client est bon ou mauvais. À proprement parler, les clients avec 12 versements ne peuvent définir le bien ou le mal qu'une fois que tout l'argent a été remboursé. Cependant, grâce à l'analyse Vintage, on peut voir combien de temps il faut pour que les clients prêteurs se détériorent, et le reste peut essentiellement être remboursé à temps, de sorte que la période de performance peut être raccourcie et le nombre de clients qui peuvent entrer dans le la modélisation peut être augmentée.
  
4. Point de performance : Au bout de combien de temps les clients peuvent-ils être définis comme « bons clients » et « mauvais clients ».
  
5. Aging MOB (Month on Book): Le mois du prêt d'actif.
  
MOB0 : De la date de décaissement à la fin du mois en cours, l'exemple fait référence au 12 avril 2021 au 30 avril 2021.
  
MOB1 : Le deuxième mois de décaissement, l'exemple fait référence au 1er mai 2021 au 31 mai 2021.
  
MOB2 : Le troisième mois de décaissement, l'exemple fait référence au 1er mai 2021 au 31 mai 2021.
  
MOB3 : Le quatrième mois de décaissement, l'exemple fait référence au 1er juin 2021 au 30 juin 2021.
  
Et ainsi de suite,
  
MOB12 : Fait référence au 13e mois de décaissement, l'exemple fait référence au 31 mars 2022 au 30 avril 2022.
  
Si le produit a 12 périodes, alors le cycle de vie de l'actif est de 12 périodes et le MOB maximum est MOB12. Si le produit contient 24 numéros, le MOB maximum est MOB24.
  
6. En retard : si le client ne rembourse pas le montant du remboursement mensuel dans son intégralité à la date de remboursement, le contrat est en retard.
  
7. Définition du DPD (Days Past Due)
  
: le client n'a pas encore payé l'échéance, et le nombre de jours de retard est le nombre de jours depuis le lendemain de l'échéance jusqu'à la date effective de remboursement (incluse). la date de retour réelle est utilisée, la date de retour réelle est remplacée par la date statistique.

Expression : DPDN+ signifie des clients avec des jours de retard ≥ N jours, comme DPD60+ signifie des clients avec des jours de retard ≥ 60 jours.
  
Exemple :
  
insérez la description de l'image ici
  
Si le client ne rembourse pas à la première date de remboursement (12 mai 2021), alors le 13 mai 2021 sera en retard d'un jour, et le client rembourse le 17 mai, et le client a dépassé les 5 premiers jours.

autres consignes :

①N'importe quel nombre de jours de retard peut être utilisé selon les exigences lors de l'analyse, comme 3 jours/7 jours/15 jours/30 jours de retard, etc.

②Le réglage en fonction du nombre de jours de retard dans l'analyse dépend de la méthode de rappel et du taux de rappel. 8. Méthode de calcul des
  
délais de retard : le nombre de jours de retard spécifié est utilisé comme délai de retard. Par exemple, 1 retard de 30 jours correspond à M1, 31 retard de 60 jours correspond à M2, etc. Il existe une certaine correspondance entre périodes de retard et jours de retard Le nombre de périodes de retard est directement calculé par le nombre de jours de retard (Remarque : différentes institutions peuvent avoir différentes divisions). Définition : nombre d'échéances entre le jour suivant la date d'échéance du remboursement et la date de remboursement effective (incluse). Si le client ne rembourse pas le prêt dans la période en cours sans la date de remboursement effective, la date de remboursement effective sera remplacée par la date statistique. Expression : M0 : Avoirs normaux, non échus actuellement (C peut aussi être utilisé pour représenter). M1 : 1 à 30 jours de retard, une période de retard. M2 : 31 à 60 jours de retard, deux versements en retard. M3 : 61 à 90 jours de retard, trois versements en retard. M4 : 91-120 jours de retard, quatre versements en retard. M5 : 121-150 jours de retard, cinq versements en retard. M6 : 151-180 jours de retard, six versements en retard. Mn : 30 n-29~30 n jours de retard, N périodes de retard. De même, M3+ : plus de 90 jours de retard, plus de 3 périodes (exclues) de retard. M4+ : Plus de 120 jours de retard, plus de 4 périodes (exclues) de retard. M6+ :
  

  

  

  

  

  

  

  

  

  

  

  

  

  

  
Plus de 180 jours de retard, plus de 6 périodes de retard (non incluses), également appelées créances irrécouvrables, annuleront le compte.
  
Mn+ : Retard de plus de 3*n jours, retard de plus de n périodes (non inclus). 9. Calibrage du nombre d'ordres pour
  
taux de retard : taux d'impayé = nombre d'ordres en retard/nombre total d'ordres débiteurs Calibre du montant : taux d'impayés = principal restant dû/principal total des prêts.
  

  

  
  

2. Analyse du taux de roulis

  
1. Objectif : Pour que le modèle de contrôle des risques ait une meilleure capacité de distinction, nous devons déterminer combien de temps le client en retard est défini comme 1 (mauvais client). Parce que certains clients qui sont en retard depuis quelques jours ont probablement oublié de rembourser, et ont remboursé après avoir été rappelés, ce n'est pas sans volonté de remboursement et capacité de remboursement. Si tous les clients avec des performances en retard sont définis comme 1, la définition des mauvais clients dans le modèle ne sera pas claire, ce qui affectera la capacité du modèle à faire la distinction. L'analyse du taux de roulement peut montrer la situation des clients passant d'un statut à un autre au cours de différentes périodes, de sorte que le développement et les changements de clients dans différents statuts de retard puissent être analysés.
  
2. Définition : Passage du pire état d'une période de temps avant le point d'observation 1 (période d'observation 1) au pire état d'une période de temps après le point d'observation 1 (période d'observation 2).
  

insérez la description de l'image ici
  

3. Les étapes spécifiques de l'analyse du taux de roulement :
  
étape 1 : sélectionnez le point d'observation 1, prenez le point d'observation 1 comme heure limite et calculez la période de retard la plus longue du client au cours de la période d'observation 1 (telle que les 6 derniers mois) selon à l'échéancier de remboursement et appuyez sur le plus Le statut de mauvais retard divise les clients en différents niveaux, tels que C, M1, M2, M3, M4+, etc.
  
étape 2 : à partir du point d'observation 1, comptez les périodes de retard les plus longues des clients au cours de la période d'observation 2 (comme les 6 prochains mois) et divisez les utilisateurs en différents niveaux en fonction du pire statut de retard, comme C, M1, M2, M3 , M4+, etc...
  
Étape 3 : Effectuez un comptage croisé du nombre de clients dans la matrice de transfert.
  
étape 4 : Calculez la proportion en fonction du nombre de clients dans la matrice de transfert.
  
Étape 5 : sélectionnez différents points d'observation, répétez les étapes 1 à 4 et comparez les valeurs de vitesse de défilement.
  
Par exemple, le point d'observation est sélectionné à 12 heures du soir le 30 juin 2021 et 20 000 clients sont pris comme objets d'observation, et les changements de statut de retard maximum de ces clients de la période d'observation 1 à la période d'observation 2 sont comptés . Tout d'abord, calculez la liste détaillée suivante du statut de retard des clients (uniquement pour comprendre les besoins de l'entreprise, pas de données réelles) :
  
insérez la description de l'image ici
  

Selon le tableau détaillé du statut de retard, la matrice d'analyse du taux de renouvellement suivante est calculée :
  
insérez la description de l'image ici
  
L'observation de la matrice d'analyse du taux de renouvellement montre que :
  
① Pour les clients dont le statut de retard est C (normal) dans la période d'observation 1, 95,29 % d'entre eux continueront pour maintenir un statut normal dans les 6 prochains mois, 4,71% seront convertis en clients en retard.
  
② Pour les clients dont le statut de retard est M1 dans la période d'observation 1, 81,16 % reviendront au statut normal à l'avenir, c'est-à-dire que le taux de rendement est de 81,86 %, 11,96 % sont toujours au statut M1 et 6,88 % se détériorer davantage.
  
③Période d'observation 1 Pour les clients en retard en statut M2, le taux de rendement est de 25,96%, 6,41% sont convertis en statut M1, 26,12% sont toujours en statut M2 et 41,51% vont encore se détériorer.
  
④ Pour les clients dont le statut d'impayé était M3 sur la période d'observation 1, le taux de rendement était de 19,77%, 10,6% convertis en M1 et M2, 11,46% étaient encore en statut M3, et 58,17% se dégraderaient davantage.
  
⑤ Pour les clients dont le statut d'impayé était M3+ sur la période d'observation 1, le taux de rendement était de 3,36%, 24,16% ont été convertis en M1, M2 et M3 et 72,48% étaient encore en statut M3+.
  
Selon le nombre de rendements, les clients en retard de M3+ ne seront guère bons.Afin de permettre au modèle de contrôle des risques d'avoir une meilleure capacité de distinction, les mauvais clients peuvent être définis comme des clients en retard de M3+ (plus plus de 90 jours de retard).
  
Dans la modélisation de crédit réelle, en raison de contraintes telles que l'échelle de l'entreprise et le temps de lancement du produit, le nombre d'échantillons de modélisation peut être faible, ce qui réduit le nombre d'échantillons erronés. Parfois, il est défini artificiellement comme 1 (mauvais échantillon) s'il est en retard depuis plus de n jours, 0 (bon échantillon) s'il n'est pas en retard, et échantillon gris (rejeté) s'il est dans les n jours. Il existe maintenant une norme pour mesurer le nombre de jours de retard que les clients sont définis comme de mauvais clients. Besoin de déterminer combien de temps la période de performance du client peut être incluse dans l'évaluation.
  
En supposant que la durée de prêt d'un produit est de 12 périodes, faut-il compléter les 12 périodes pour définir si un client est un mauvais client ? À proprement parler, ça l'est. Sinon, on peut seulement dire que le client n'est pas un mauvais client jusqu'à présent, mais on ne peut pas savoir s'il deviendra un mauvais client en retard dans les prochaines périodes. Et certains comptes ont atteint M3+ dans les premières périodes, et certains n'ont atteint M3+ que dans les périodes ultérieures. Par conséquent, il nous suffit de déterminer une période de performance appropriée pour couvrir suffisamment de mauvais clients. L'analyse du millésime consiste à déterminer combien de temps il convient de définir la période de performance.

  

3. Analyse des millésimes

  
1. Objectif : Compter la situation de retard dans chaque MOB après l'ajout du nouveau prêt chaque mois, comparer la situation de retard du prêt mensuel, juger de l'efficacité de la stratégie et du modèle et analyser la période de maturité du risque du client.
  
2. Méthode d'expression : L'abscisse de la courbe Vintage est MOB, et l'ordonnée est le taux de retard. Le taux de retard peut être calculé dans la dimension montant ou dans la dimension commande.
  
3. Calcul du taux d'impayés et méthode statistique (montant) :
  
taux d'impayés = principal restant dû/principal total du prêt.
  
Le dénominateur est le principal total du mois où le prêt est émis, c'est-à-dire le montant du contrat, qui ne change pas dans le temps (non réduit en raison d'un règlement ou d'une radiation).
  
Le numérateur est le solde principal lorsque la définition de Bad est en retard. En supposant que Bad est défini comme M3+, il existe deux méthodes de calcul pour le numérateur.
  
insérez la description de l'image ici
  
4. Calcul et statistiques du taux de retard (nombre de commandes) :
  
taux de retard = nombre de commandes en retard/nombre total de commandes de prêt
  
Le dénominateur est le nombre total de commandes du mois de prêt en cours, qui ne change pas avec le temps (non réduit en raison d'un règlement ou d'une radiation) .
  
Le numérateur est le nombre de commandes lorsque la définition Bad en retard est atteinte. En supposant que Bad est défini comme M3+, il existe également deux méthodes de calcul pour le numérateur.
  
insérez la description de l'image ici
  
5. Établissement du tableau des millésimes
  
Supposons maintenant qu'il existe un produit de prêt en espèces avec un taux de 36 % pour les clients, avec une durée de produit de 12 périodes, une moyenne de 2 000 yuans par prêt et un nombre moyen de prêts mensuels d'environ 10 000. La méthode de remboursement est égale au principal et aux intérêts. À partir de l'analyse du taux de roulement, on peut déduire que les clients Mn+ en retard ne seront guère bons, de sorte que les mauvais clients peuvent être définis comme des clients Mn+. Cet article suppose que les clients dont le statut de retard est M3+ après que le produit a passé l'analyse du taux de roulement seront difficilement réhabilités. Comptez les performances de prêt de ce produit de mars 2021 à mai 2022 (maintenant), et le tableau suivant peut être obtenu : selon la
  
insérez la description de l'image ici
  
dimension de MOB, les commandes de différents mois de prêt peuvent être réorganisées, et le tableau suivant peut être obtenu :
  
insérez la description de l'image ici
  
dessinez le tableau de la dimension MOB sous forme de graphique en courbes, le tableau Vintage suivant peut être obtenu :
  

insérez la description de l'image ici
  
Il est connu du millésime :
  
①L'axe horizontal indique le cycle de vie des clients, qui reflète les changements dans le processus de maturité des clients.
  
②L'axe vertical reflète les changements de clients ayant le même âge au fil du temps et montre les changements du taux de défaut au cours de différents mois.
  
③Étant donné que la durée du produit est de 12 périodes, le MOB (âge du compte) maximum est de 12 mois, et vice versa.
  
④ Les statistiques de données sont le taux de retard Ever M3+, de sorte que les MOB1 et MOB2 vieillissants sont tous deux à 0.
  
⑤ Le taux de comptes en souffrance au cours du mois de prêt de mars 2021 à novembre 2021 est en baisse, ce qui indique que la qualité des actifs s'améliore constamment. Il se peut que le contrôle des risques ait une compréhension plus complète de la dimension de risque du produit et du niveau de la maîtrise des risques s'améliore constamment.
  
⑥Le taux d'impayés M3+ des clients qui ont contracté des prêts au cours de différents mois a eu tendance à se stabiliser après 9 MOB, ce qui indique que la durée du compte est de 9 mois.
  
⑦Étant donné que les statistiques sont basées sur le taux de retard Ever M3+, la valeur du taux de retard en un seul mois ne fera qu'augmenter mais pas diminuer. A partir du tableau Vintage, si l'on veut construire un modèle pré-carte de crédit (carte A), le mois de prêt avec exécution complète (12 versements) est de mars 2021 à juin 2021.
  
Si seules des données avec des performances complètes sont utilisées pour la modélisation, les échantillons ne peuvent être prélevés que sur les clients dont le mois de prêt va de mars 2021 à mai 2021. Si les données de la période d'échéance du compte de 9 mois sont utilisées pour la modélisation, les échantillons peuvent être prélevés de mars 2021 à août 2021, avec trois mois supplémentaires de données d'échantillon. Étant donné que les données de la table Vintage sont fabriquées, elles semblent relativement claires. En réalité, certaines données de prêt peuvent soudainement augmenter les performances en retard au cours d'un mois donné en raison de facteurs tels que le flux de trafic, l'environnement externe et les ajustements de la stratégie de contrôle des risques.

Par exemple, il existe un produit de prêt de groupe de clients de commerce électronique avec une durée de produit de 12 périodes, une moyenne de 5 000 yuans par pièce, et un produit de prêt en espèces avec un taux client de 36 %. Les performances de Vintage sont les suivantes (les données ont été traité) :
  

insérez la description de l'image ici
  
D'après le tableau Vintage de ce produit, on peut voir que le taux d'impayés des prêts en octobre 2018 a fortement augmenté par rapport au mois précédent, ce qui peut être dû à des facteurs tels que le flux de trafic, l'environnement externe et les ajustements de la stratégie de contrôle des risques.

  

Quatrièmement, la détermination de la variable dépendante Y

  
1. Définition : La variable dépendante Y est la variable d'étiquette des bons ou mauvais clients.
  
2. Méthode : utilisez l'analyse du taux de roulement pour définir la qualité des clients et l'analyse du millésime pour déterminer la période de performance appropriée.
  
3. Etapes spécifiques de l'opération :
  
Etape 1 : Utiliser le taux glissant pour définir les mauvais clients Par exemple, dans le cas ci-dessus, il est défini que les clients avec un taux de retard de M3+ sont des mauvais clients.
  
Étape 2 : Prenez M3+ comme indicateur statistique de la qualité des actifs, comptez le tableau de données Vintage, tracez la courbe Vintage et analysez la période de maturité du compte. Par exemple, le cas ci-dessus confirme que la période d'échéance du compte est de 9 mois.
  
Étape 3 : Les échantillons dont la période de performance est supérieure à la période de maturité peuvent être utilisés pour la modélisation, et les échantillons dont la période de performance est inférieure à la période de maturité ne peuvent pas définir avec précision la variable Y, ils sont donc temporairement ignorés.
  
4. Conclusion : Selon le cas ci-dessus, le client dont la période d'exécution dépasse 9 mois et dont le M3+ est en retard est défini comme 1, le client dont la période d'exécution dépasse 9 mois et n'est pas en retard est défini comme 0, et les autres clients sont rejetés. .
  
Jusqu'à présent, la détermination de la variable dépendante Y dans le champ de paiement et le champ de crédit a été analysée. Bienvenue pour partager des photos avec plus d'amis dans le besoin.
  
les références

http://t.zoukankan.com/zjfjava-p-14213026.html
https://blog.csdn.net/eroswang/article/details/117735703
https://vip.kingdee.com/article/243694728837810944?productLineId=1
https://baijiahao.baidu.com/s?id=1703345218390615519&wfr=spider&for=pc

Vous pourriez être intéressé par :
Dessinez Pikachu avec Python
Dessinez une carte de nuage de mots
avec Python Dessinez 520 battements de cœur éternels avec Python Reconnaissance faciale Python - vous êtes
à mes yeux
le seul Utilisez la bibliothèque py2neo en Python pour faire fonctionner neo4j et construire une carte des relations Collection de code source de confession romantique Python (amour, rose, mur de photos, confession sous les étoiles)


Appuyez longuement (scan) pour reconnaître le code QR ci-dessus pour en savoir plus sur Python et la modélisation, rendant votre étude et votre travail plus brillants.

Je suppose que tu aimes

Origine blog.csdn.net/qq_32532663/article/details/125461299
conseillé
Classement